Τεχνητή νοημοσύνη

Ένα σύστημα ανίχνευσης για πλαίσια σύνθεσης καθαρής εικόνας όπως το DALL-E 2

Δημοσιευμένα Ιούνιος 30, 2022

Ενημερώθηκε Δεκέμβριος 9, 2022

Μάρτιν Άντερσον

Νέα έρευνα από το Πανεπιστήμιο της Καλιφόρνια στο Μπέρκλεϋ προσφέρει μια μέθοδο για τον προσδιορισμό του εάν η έξοδος από τη νέα γενιά πλαισίων σύνθεσης εικόνας - όπως το Open AI's DALL-E2, και της Google Εικόνα και Μέρη – μπορεί να ανιχνευθεί ως «μη αληθινό», μελετώντας τη γεωμετρία, τις σκιές και τις αντανακλάσεις που εμφανίζονται στις συνθετικές εικόνες.

Μελετώντας εικόνες που δημιουργούνται από προτροπές κειμένου στο DALL-E 2, οι ερευνητές διαπίστωσαν ότι παρά τον εντυπωσιακό ρεαλισμό του οποίου είναι ικανή η αρχιτεκτονική, εμφανίζονται ορισμένες επίμονες ασυνέπειες που σχετίζονται με την απόδοση της παγκόσμιας προοπτικής, τη δημιουργία και τη διάθεση σκιών και ιδιαίτερα όσον αφορά την απόδοση ανακλώμενων αντικειμένων.

Το έγγραφο αναφέρει:

«Οι [γεωμετρικές] δομές, οι χυτές σκιές και οι αντανακλάσεις σε επιφάνειες με καθρέφτη δεν συνάδουν πλήρως με την αναμενόμενη προοπτική γεωμετρία των φυσικών σκηνών. Οι γεωμετρικές δομές και οι σκιές είναι, γενικά, τοπικά συνεπείς, αλλά γενικά ασυνεπείς.

«Οι αντανακλάσεις, από την άλλη πλευρά, συχνά αποδίδονται απίθανα, πιθανώς επειδή είναι λιγότερο συνηθισμένες στο σύνολο δεδομένων εικόνων εκπαίδευσης».

Σύμφωνα με τη νέα μελέτη, η έλλειψη συνεπών τομών μεταξύ του αποδιδόμενου αντικειμένου και της απόδοσης της ανάκλασής του είναι επί του παρόντος ένας αξιόπιστος τρόπος ανίχνευσης μιας εικόνας DALL-E 2. Πηγή: https://arxiv.org/pdf/2206.14617.pdf

Το έγγραφο αντιπροσωπεύει μια πρώιμη εισβολή σε αυτό που μπορεί τελικά να γίνει ένα αξιοσημείωτο σκέλος στην ερευνητική κοινότητα της όρασης υπολογιστών - Ανίχνευση σύνθεσης εικόνας.

Από την εμφάνιση των deepfakes το 2017, ανίχνευση deepfake (κυρίως από αυτόματος κωδικοποιητής έξοδο από πακέτα όπως π.χ DeepFaceLab και Ανταλλαγή προσώπου) έχει γίνει ένα ενεργό και ανταγωνιστικό ακαδημαϊκό σκέλος, με διάφορες εργασίες και μεθοδολογίες που στοχεύουν τις εξελισσόμενες «αφηγήσεις» των συνθετικών προσώπων σε πραγματικό βίντεο.

Ωστόσο, μέχρι την πολύ πρόσφατη εμφάνιση συστημάτων παραγωγής εικόνων που εκπαιδεύονται σε υπερκλίμακα, η έξοδος από συστήματα προτροπής κειμένου όπως π.χ. CLIP δεν αποτελούσε απειλή για το status quo της «φωτορεαλότητας». Οι συντάκτες της νέας εργασίας πιστεύουν ότι αυτό πρόκειται να αλλάξει, και ότι ακόμη και οι ασυνέπειες που έχουν ανακαλύψει στην έξοδο DALL-E 2 μπορεί να μην κάνουν μεγάλη διαφορά στη δυνατότητα εξαγωγής εικόνων να εξαπατήσουν τους θεατές.

Οι συγγραφείς αναφέρουν*:

«[Τέτοιες] αποτυχίες μπορεί να μην έχουν μεγάλη σημασία για το ανθρώπινο οπτικό σύστημα, το οποίο έχει διαπιστωθεί ότι είναι εκπληκτικά ανίκανο σε ορισμένες γεωμετρικές κρίσεις, συμπεριλαμβανομένων των ασυνεπειών σε φωτισμός, σκιές, αντανακλάσεις, θέση θέασης, να παραμόρφωση προοπτικής.'

Εξαφανίζεται η αξιοπιστία

Η πρώτη ιατροδικαστική εξέταση από τους συγγραφείς της εξόδου DALL-E 2 σχετίζεται με την προοπτική προβολή – τον τρόπο με τον οποίο η τοποθέτηση των ευθύγραμμων άκρων σε κοντινά αντικείμενα και υφές πρέπει να επιλύεται ομοιόμορφα σε ένα «σημείο εξαφάνισης».

Αριστερά, παράλληλες γραμμές στο ίδιο επίπεδο καταλήγουν σε ένα κοινό σημείο εξαφάνισης. δεξιά, πολλαπλά σημεία φυγής στο ίδιο και παράλληλα επίπεδα ορίζουν μια γραμμή εξαφάνισης (που απεικονίζεται με κόκκινο).

Για να ελέγξουν τη συνοχή του DALL-E 2 από αυτή την άποψη, οι συγγραφείς χρησιμοποίησαν το DALL-E 2 για να δημιουργήσουν 25 συνθετικές εικόνες κουζινών - ένας οικείος χώρος που, ακόμη και σε καλά εξοπλισμένες κατοικίες, συνήθως είναι αρκετά περιορισμένος ώστε να παρέχει πολλαπλά πιθανά σημεία φυγής για γκάμα αντικειμένων και υφών.

Εξέταση της εξόδου από την προτροπή «φωτογραφία κουζίνας με δάπεδο με πλακάκια», οι ερευνητές διαπίστωσαν ότι παρά τη γενικά πειστική αναπαράσταση σε κάθε περίπτωση (αποκλείστε μερικά παράξενα, μικρότερα τεχνουργήματα που δεν σχετίζονται με την προοπτική), τα αντικείμενα που απεικονίζονται δεν φαίνεται να συγκλίνουν ποτέ σωστά.

Οι συγγραφείς σημειώνουν ότι ενώ κάθε σύνολο παράλληλων γραμμών από το σχέδιο πλακιδίων είναι συνεπές και τέμνονται σε ένα μοναδικό σημείο εξαφάνισης (μπλε στην εικόνα παρακάτω), το σημείο εξαφάνισης για τον πάγκο (κυανό) διαφωνεί και με τις δύο γραμμές εξαφάνισης (κόκκινο ) και το σημείο φυγής που προέρχεται από τα πλακίδια.

Οι συγγραφείς παρατηρούν ότι ακόμα κι αν ο πάγκος δεν ήταν παράλληλος με τα πλακάκια, το κυανό σημείο εξαφάνισης θα πρέπει να φθάσει στην (κόκκινη) γραμμή εξαφάνισης που ορίζεται από τα σημεία εξαφάνισης των πλακιδίων δαπέδου.

Το έγγραφο αναφέρει:

«Ενώ η οπτική γωνία σε αυτές τις εικόνες είναι – εντυπωσιακά – τοπικά συνεπής, δεν είναι συνεπής σε παγκόσμιο επίπεδο. Αυτό το ίδιο μοτίβο βρέθηκε σε καθεμία από τις 25 συνθετικές εικόνες κουζίνας».

Σκιώδης Εγκληματολογία

Όπως γνωρίζει όποιος έχει ασχοληθεί ποτέ με την ανίχνευση ακτίνων, οι σκιές έχουν επίσης πιθανά σημεία εξαφάνισης, υποδεικνύοντας φωτισμό μίας ή πολλαπλών πηγών. Για τις εξωτερικές σκιές σε έντονο ηλιακό φως, θα περίμενε κανείς ότι οι σκιές σε όλες τις όψεις μιας εικόνας θα επιλύονται με συνέπεια στη μοναδική πηγή φωτός (τον ήλιο).

Όπως και με το προηγούμενο πείραμα, οι ερευνητές δημιούργησαν 25 εικόνες DALL-E 2 με την προτροπή «τρεις κύβοι σε ένα πεζοδρόμιο φωτογραφημένοι μια ηλιόλουστη μέρα», καθώς και άλλα 25 με την προτροπή "«τρεις κύβοι σε ένα πεζοδρόμιο φωτογραφημένοι μια συννεφιασμένη μέρα».

Στην επάνω σειρά, εικόνες που δημιουργήθηκαν από τους ερευνητές προτρέπουν «τρεις κύβους σε ένα πεζοδρόμιο που φωτογραφίζονται μια συννεφιασμένη μέρα». στην κάτω σειρά, εικόνες που δημιουργήθηκαν από την προτροπή «τρεις κύβοι σε ένα πεζοδρόμιο που φωτογραφήθηκαν μια ηλιόλουστη μέρα».

Οι ερευνητές σημειώνουν ότι κατά την αναπαράσταση συννεφιασμένων συνθηκών, το DALL-E 2 είναι σε θέση να αποδώσει τις πιο διάχυτες σχετικές σκιές με πειστικό και εύλογο τρόπο, ίσως κυρίως επειδή αυτός ο τύπος σκιάς είναι πιθανό να είναι πιο διαδεδομένος στις εικόνες δεδομένων στις οποίες πλαίσιο εκπαιδεύτηκε.

Ωστόσο, ορισμένες από τις «ηλιόλουστες» φωτογραφίες, όπως διαπίστωσαν οι συγγραφείς, δεν συνάδουν με μια σκηνή που φωτιζόταν από μία μόνο πηγή φωτός.

Για την παραπάνω εικόνα, οι γενιές έχουν μετατραπεί σε κλίμακα του γκρι για ευκρίνεια και δείχνουν κάθε αντικείμενο με τον δικό του αποκλειστικό «ήλιο».

Αν και ο μέσος θεατής μπορεί να μην εντοπίσει τέτοιες ανωμαλίες, ορισμένες από τις εικόνες που δημιουργήθηκαν είχαν πιο εμφανή παραδείγματα «αστοχίας σκιάς»:

Ενώ μερικές από τις σκιές βρίσκονται απλώς σε λάθος θέση, πολλές από αυτές, είναι ενδιαφέρον, αντιστοιχούν στο είδος της οπτικής ασυμφωνίας που παράγεται στη μοντελοποίηση CGI όταν ο ρυθμός δειγματοληψίας για ένα εικονικό φως είναι πολύ χαμηλός.

Αντανακλάσεις στο DALL-E 2

Τα πιο καταδικαστικά αποτελέσματα από την άποψη της εγκληματολογικής ανάλυσης προέκυψαν όταν οι συγγραφείς δοκίμασαν την ικανότητα του DALL-E 2 να δημιουργεί επιφάνειες υψηλής ανακλαστικότητας, κάτι που είναι ένας επαχθής υπολογισμός επίσης στην ανίχνευση ακτίνων CGI και σε άλλους παραδοσιακούς αλγόριθμους απόδοσης.

Για αυτό το πείραμα, οι συγγραφείς παρήγαγαν 25 εικόνες DALL-E 2 με την προτροπή «μια φωτογραφία ενός παιχνιδιού δεινοσαύρου και η αντανάκλασή του σε έναν καθρέφτη ματαιοδοξίας».

Σε όλες τις περιπτώσεις, αναφέρουν οι συγγραφείς, η κατοπτρική εικόνα του παιγνιδιού ήταν κατά κάποιο τρόπο αποσυνδεδεμένη από την όψη και τη διάθεση του «πραγματικού» παιχνιδιού δεινοσαύρου. Οι συγγραφείς δηλώνουν ότι το πρόβλημα ήταν ανθεκτικό σε παραλλαγές στην προτροπή κειμένου και φαίνεται να είναι μια θεμελιώδης αδυναμία του συστήματος.

Φαίνεται ότι υπάρχει μια λογική σε ορισμένα από τα λάθη - το πρώτο και το τρίτο παράδειγμα στην επάνω σειρά φαίνεται να δείχνουν έναν δεινόσαυρο που είναι αντίγραφο πολύ καλά, αλλά όχι καθρέφτης.

Οι συγγραφείς σχολιάζουν:

«Σε αντίθεση με τις χυτές σκιές και τις γεωμετρικές δομές στις προηγούμενες ενότητες, το DALL·E-2 αγωνίζεται να συνθέσει εύλογες αντανακλάσεις, πιθανώς επειδή τέτοιες αντανακλάσεις είναι λιγότερο συχνές στο σύνολο δεδομένων εικόνων εκπαίδευσης».

Σφάλματα όπως αυτά μπορεί να εξαλειφθούν σε μελλοντικά μοντέλα κειμένου σε εικόνα που είναι σε θέση να ελέγχουν πιο αποτελεσματικά τη συνολική σημασιολογική λογική του αποτελέσματός τους και τα οποία θα είναι σε θέση να επιβάλλουν αφηρημένους φυσικούς κανόνες σε σκηνές που έχουν, σε κάποιο βαθμό, συναρμολογημένο από χαρακτηριστικά που σχετίζονται με τη λέξη στον λανθάνοντα χώρο του συστήματος.

Υπό το φως μιας αυξανόμενης τάσης προς όλο και μεγαλύτερες αρχιτεκτονικές σύνθεσης, οι συγγραφείς καταλήγουν στο συμπέρασμα:

«[Είναι] θέμα χρόνου να μάθουν οι μηχανές σύνθεσης ζωγραφικής προς κείμενο να αποδίδουν εικόνες με πλήρη συνοχή προοπτικής. Μέχρι εκείνη τη στιγμή, ωστόσο, οι γεωμετρικές εγκληματολογικές αναλύσεις μπορεί να αποδειχθούν χρήσιμες για την ανάλυση αυτών των εικόνων».

* Η μετατροπή των ενσωματωμένων παραπομπών των συγγραφέων σε υπερσυνδέσμους.

Πρώτη δημοσίευση 30 Ιουνίου 2022.

Σχετικά θέματα:ανίχνευση deepfake σύνθεση εικόνας έρευνα

Επόμενο

Ανίχνευση Deepfake βιντεοκλήσεων μέσω φωτισμού οθόνης

Μην χάσετε

Προσδιορισμός των Crowdturfers του Instagram με τη Μηχανική Μάθηση

Μάρτιν Άντερσον

Συγγραφέας στη μηχανική μάθηση, ειδικός τομέα στη σύνθεση ανθρώπινης εικόνας. Πρώην επικεφαλής ερευνητικού περιεχομένου στο Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επαφή: [προστασία μέσω email]
Twitter: @manders_ai