Συνδεθείτε μαζί μας

Πώς να σταματήσετε την απεικόνιση iPhone από την Τεχνητή Νοημοσύνη σε περασμένες εποχές

Η γωνία του Άντερσον

Πώς να σταματήσετε την απεικόνιση iPhone από την Τεχνητή Νοημοσύνη σε περασμένες εποχές

mm
Ένα μοντάζ από διάφορες επιλεγμένες εικόνες από την εργασία «Συνθετική Ιστορία: Αξιολόγηση Οπτικών Αναπαραστάσεων του Παρελθόντος σε Μοντέλα Διάχυσης» (https://arxiv.org/abs/2505.17064)

Πώς απεικονίζουν το παρελθόν οι γεννήτριες εικόνων με τεχνητή νοημοσύνη; Νέα έρευνα δείχνει ότι εγκαταλείπουν τα smartphones στον 18ο αιώνα, εισάγουν φορητούς υπολογιστές σε σκηνές της δεκαετίας του 1930 και τοποθετούν ηλεκτρικές σκούπες σε σπίτια του 19ου αιώνα, εγείροντας ερωτήματα σχετικά με το πώς αυτά τα μοντέλα φαντάζονται την ιστορία - και αν είναι ικανά για ιστορική ακρίβεια με βάση τα συμφραζόμενα.

 

Στις αρχές του 2024, οι δυνατότητες δημιουργίας εικόνων της Google Gemini Το πολυτροπικό μοντέλο τεχνητής νοημοσύνης δέχθηκε κριτική για την επιβολή του δημογραφική δικαιοσύνη σε ακατάλληλα πλαίσια, όπως η δημιουργία Γερμανών στρατιωτών του Β' Παγκοσμίου Πολέμου με απίθανη προέλευση:

Δημογραφικά απίθανο γερμανικό στρατιωτικό προσωπικό, όπως προβλέπεται από το πολυτροπικό μοντέλο Gemini της Google το 2024. Πηγή: Gemini AI/Google μέσω The Guardian

Δημογραφικά απίθανο γερμανικό στρατιωτικό προσωπικό, όπως προβλέπεται από το πολυτροπικό μοντέλο Gemini της Google το 2024. Πηγή: Gemini AI/Google μέσω The Guardian

Αυτό ήταν ένα παράδειγμα των προσπαθειών για αποκατάσταση προκατάληψη στα μοντέλα Τεχνητής Νοημοσύνης δεν έλαβαν υπόψη ένα ιστορικό πλαίσιο. Σε αυτήν την περίπτωση, το ζήτημα αντιμετωπίστηκε λίγο αργότερα. Ωστόσο, με βάση τη διάχυση Τα μοντέλα παραμένουν επιρρεπή στη δημιουργία εκδοχών της ιστορίας που συγχέουν τις σύγχρονες και ιστορικές πτυχές και τα τεχνουργήματα.

Αυτό οφείλεται εν μέρει σε μπλέξιμο, όπου οι ιδιότητες που εμφανίζονται συχνά μαζί στα δεδομένα εκπαίδευσης συγχωνεύονται στην έξοδο του μοντέλου. Για παράδειγμα, εάν σύγχρονα αντικείμενα όπως τα smartphones συχνά συνυπάρχουν με την πράξη της ομιλίας ή της ακρόασης στο σύνολο δεδομένων, το μοντέλο μπορεί να μάθει να συσχετίζει αυτές τις δραστηριότητες με σύγχρονες συσκευές, ακόμη και όταν η προτροπή καθορίζει ένα ιστορικό περιβάλλον. Μόλις ενσωματωθούν αυτές οι συσχετίσεις στο μοντέλο εσωτερικές αναπαραστάσεις, καθίσταται δύσκολο να διαχωριστεί η δραστηριότητα από το σύγχρονο πλαίσιό της, γεγονός που οδηγεί σε ιστορικά ανακριβή αποτελέσματα.

Μια νέα εργασία από την Ελβετία, που εξετάζει το φαινόμενο των εμπλεκόμενων ιστορικών γενεών σε μοντέλα λανθάνουσας διάχυσης, παρατηρεί ότι τα πλαίσια Τεχνητής Νοημοσύνης που είναι αρκετά ικανό να δημιουργήσει φωτορεαλιστικούς ανθρώπους παρόλα αυτά προτιμούν να απεικονίζουν ιστορικά πρόσωπα με ιστορικούς τρόπους:

Από τη νέα εργασία, ποικίλες αναπαραστάσεις μέσω LDM της προτροπής «Μια φωτορεαλιστική εικόνα ενός ατόμου που γελάει με έναν φίλο στην [ιστορική περίοδο]», με κάθε περίοδο να υποδεικνύεται σε κάθε αποτέλεσμα. Όπως μπορούμε να δούμε, το μέσο της εποχής έχει συνδεθεί με το περιεχόμενο. Πηγή: https://arxiv.org/pdf/2505.17064

Από τη νέα εργασία, ποικίλες αναπαραστάσεις μέσω LDM της προτροπής «Μια φωτορεαλιστική εικόνα ενός ατόμου που γελάει με έναν φίλο στην [ιστορική περίοδο]», με κάθε περίοδο να υποδεικνύεται σε κάθε αποτέλεσμα. Όπως μπορούμε να δούμε, το μέσο της εποχής έχει συνδεθεί με το περιεχόμενο. Πηγή: https://arxiv.org/pdf/2505.17064

Για την προτροπή «Μια φωτορεαλιστική εικόνα ενός ατόμου που γελάει με έναν φίλο στην [ιστορική περίοδο]», ένα από τα τρία μοντέλα που δοκιμάστηκαν συχνά αγνοεί την αρνητική προτροπή 'μονόχρωμος' και αντ' αυτού χρησιμοποιεί χρωματικές επεξεργασίες που αντανακλούν τα οπτικά μέσα της συγκεκριμένης εποχής, για παράδειγμα μιμούμενοι τους απαλούς τόνους του σελουλόιντ φιλμ της δεκαετίας του 1950 και του 1970.

Κατά τη δοκιμή των τριών μοντέλων για την ικανότητά τους να δημιουργούν αναχρονισμοί (πράγματα που δεν ανήκουν στην περίοδο-στόχο ή «εκτός χρόνου» – τα οποία μπορεί να προέρχονται από την περίοδο-στόχο μελλοντικός καθώς και το παρελθόν του), διαπίστωσαν μια γενική τάση να συγχέουν διαχρονικές δραστηριότητες (όπως το «τραγούδι» ή το «μαγειρέμα») με σύγχρονα πλαίσια και εξοπλισμό:

Ποικίλες δραστηριότητες που ισχύουν απόλυτα για προηγούμενους αιώνες απεικονίζονται με τρέχουσα ή πιο πρόσφατη τεχνολογία και σύνεργα, σε αντίθεση με το πνεύμα της ζητούμενης εικονογραφίας.

Ποικίλες δραστηριότητες που ισχύουν απόλυτα για προηγούμενους αιώνες απεικονίζονται με τρέχουσα ή πιο πρόσφατη τεχνολογία και σύνεργα, σε αντίθεση με το πνεύμα της ζητούμενης εικονογραφίας.

Αξίζει να σημειωθεί ότι τα smartphones είναι ιδιαίτερα δύσκολο να διαχωριστούν από το ιδίωμα της φωτογραφίας και από πολλά άλλα ιστορικά συμφραζόμενα, καθώς ο πολλαπλασιασμός και η απεικόνισή τους αντιπροσωπεύονται καλά σε επιδραστικά σύνολα δεδομένων υπερκλίμακας, όπως Κοινή ανίχνευση:

Στο μοντέλο Flux που βασίζεται στην τεχνολογία μετατροπής κειμένου σε εικόνα, οι επικοινωνίες και τα smartphones είναι έννοιες που συνδέονται στενά – ακόμη και όταν το ιστορικό πλαίσιο δεν το επιτρέπει.

Στο μοντέλο Flux που βασίζεται στην τεχνολογία μετατροπής κειμένου σε εικόνα, οι επικοινωνίες και τα smartphones είναι έννοιες που συνδέονται στενά – ακόμη και όταν το ιστορικό πλαίσιο δεν το επιτρέπει.

Για να προσδιορίσουν την έκταση του προβλήματος και να δώσουν στις μελλοντικές ερευνητικές προσπάθειες μια διέξοδο με αυτό το συγκεκριμένο πρόβλημα, οι συγγραφείς της νέας εργασίας ανέπτυξαν ένα εξατομικευμένο σύνολο δεδομένων έναντι του οποίου θα δοκιμάσουν τα γενετικά συστήματα. Σε λίγο, θα ρίξουμε μια ματιά σε αυτό. νέες εργασίες, που τιτλοφορείται Συνθετική Ιστορία: Αξιολόγηση Οπτικών Αναπαραστάσεων του Παρελθόντος σε Μοντέλα Διάχυσης, και προέρχεται από δύο ερευνητές στο Πανεπιστήμιο της Ζυρίχης. Το σύνολο δεδομένων και ο κώδικας είναι δημόσια διαθέσιμα.

Μια εύθραυστη «αλήθεια»

Μερικά από τα θέματα της εργασίας αγγίζουν πολιτισμικά ευαίσθητα ζητήματα, όπως η υποεκπροσώπηση των φυλών. και το φύλο σε ιστορικές αναπαραστάσεις. Ενώ η επιβολή της φυλετικής ισότητας από τον Gemini στο κατάφωρα άδικο Τρίτο Ράιχ είναι μια παράλογη και προσβλητική ιστορική αναθεώρηση, η αποκατάσταση των «παραδοσιακών» φυλετικών αναπαραστάσεων (όπου τα μοντέλα διάχυσης τις έχουν «ενημερώσει») συχνά ουσιαστικά «ξαναξεπλύνει» την ιστορία.

Πολλές πρόσφατες ιστορικές εκπομπές με μεγάλη επιτυχία, όπως π.χ. Μπρίτζερτον, θολώνουν την ιστορική δημογραφική ακρίβεια με τρόπους που είναι πιθανό να επηρεάσουν μελλοντικά σύνολα δεδομένων εκπαίδευσης, περιπλέκοντας τις προσπάθειες ευθυγράμμισης των εικόνων περιόδου που δημιουργούνται από το LLM με τα παραδοσιακά πρότυπα. Ωστόσο, αυτό είναι ένα περίπλοκο θέμα, δεδομένου του ιστορική τάση της (δυτικής) ιστορίας για να ευνοήσει τον πλούτο και τη λευκότητα, και να αφήσει τόσες πολλές «λιγότερο σημαντικές» ιστορίες ανειλημμένες.

Έχοντας κατά νου αυτές τις δύσκολες και συνεχώς μεταβαλλόμενες πολιτισμικές παραμέτρους, ας ρίξουμε μια ματιά στη νέα προσέγγιση των ερευνητών.

Μέθοδος και Δοκιμές

Για να ελέγξουν πώς τα γενετικά μοντέλα ερμηνεύουν το ιστορικό πλαίσιο, οι συγγραφείς δημιούργησαν HistVis, ένα σύνολο δεδομένων 30,000 εικόνων που δημιουργήθηκαν από εκατό προτροπές που απεικονίζουν κοινές ανθρώπινες δραστηριότητες, καθεμία από τις οποίες αποδόθηκε σε δέκα διακριτές χρονικές περιόδους:

Ένα δείγμα από το σύνολο δεδομένων HistVis, το οποίο οι συγγραφείς έχουν διαθέσει στο Hugging Face. Πηγή: https://huggingface.co/datasets/latentcanon/HistVis

Ένα δείγμα από το σύνολο δεδομένων HistVis, το οποίο οι συγγραφείς έχουν διαθέσει στο Hugging Face. Πηγή: https://huggingface.co/datasets/latentcanon/HistVis

Οι δραστηριότητες, όπως π.χ. μαγείρεμα, προσεύχεται or ακούγοντας μουσική, επιλέχθηκαν για την καθολικότητά τους και διατυπώθηκαν σε ουδέτερη μορφή για να αποφευχθεί η αγκύρωση του μοντέλου σε οποιαδήποτε συγκεκριμένη αισθητική. Οι χρονικές περίοδοι για το σύνολο δεδομένων κυμαίνονται από τον δέκατο έβδομο αιώνα έως σήμερα, με πρόσθετη εστίαση σε πέντε μεμονωμένες δεκαετίες από τον εικοστό αιώνα.

30,000 εικόνες δημιουργήθηκαν χρησιμοποιώντας τρία ευρέως χρησιμοποιούμενα μοντέλα διάχυσης ανοιχτού κώδικα: Stable Diffusion XL; Σταθερή Διάχυση 3? Και FLUX.1Απομονώνοντας την χρονική περίοδο ως τη μόνη μεταβλητή, οι ερευνητές δημιούργησαν μια δομημένη βάση για την αξιολόγηση του τρόπου με τον οποίο τα ιστορικά στοιχεία κωδικοποιούνται οπτικά ή αγνοούνται από αυτά τα συστήματα.

Κυριαρχία Οπτικού Στυλ

Ο συγγραφέας αρχικά εξέτασε εάν τα γενετικά μοντέλα βασίζονται σε συγκεκριμένα οπτικά στυλ όταν απεικόνιζαν ιστορικές περιόδους· επειδή φαινόταν ότι ακόμη και όταν οι προτροπές δεν περιελάμβαναν καμία αναφορά σε μέσο ή αισθητική, τα μοντέλα συχνά συνέδεαν συγκεκριμένους αιώνες με χαρακτηριστικά στυλ:

Προβλεπόμενα οπτικά στυλ για εικόνες που δημιουργήθηκαν από την προτροπή «Ένα άτομο που χορεύει με άλλον στην [ιστορική περίοδο]» (αριστερά) και από την τροποποιημένη προτροπή «Μια φωτορεαλιστική εικόνα ενός ατόμου που χορεύει με άλλον στην [ιστορική περίοδο]» με την επιλογή «μονόχρωμη εικόνα» να έχει οριστεί ως αρνητική προτροπή (δεξιά).

Προβλεπόμενα οπτικά στυλ για εικόνες που δημιουργήθηκαν από την προτροπή «Ένα άτομο που χορεύει με ένα άλλο στην [ιστορική περίοδο]» (αριστερά) και από την τροποποιημένη προτροπή «Μια φωτορεαλιστική εικόνα ενός ατόμου που χορεύει με ένα άλλο στην [ιστορική περίοδο]» με την επιλογή «μονόχρωμη εικόνα» να έχει οριστεί ως αρνητική προτροπή (δεξιά).

Για να μετρήσουν αυτήν την τάση, οι συγγραφείς εκπαίδευσαν ένα συνελικτικό νευρωνικό δίκτυο (CNN) για να ταξινομήσει κάθε εικόνα στο σύνολο δεδομένων HistVis σε μία από τις πέντε κατηγορίες: σχέδιο; χαρακτική; εικόνα; (πλαίσιο)? Ή φωτογραφίαΑυτές οι κατηγορίες είχαν ως στόχο να αντικατοπτρίζουν κοινά μοτίβα που αναδύονται σε διάφορες χρονικές περιόδους και τα οποία υποστηρίζουν τη δομημένη σύγκριση.

Ο ταξινομητής βασίστηκε σε ένα VGG16 μοντέλο προεκπαιδευμένο σε IMAGEnet και σωστά συντονισμένο με 1,500 παραδείγματα ανά τάξη από ένα WikiArt-προερχόμενο σύνολο δεδομένων. Δεδομένου ότι το WikiArt δεν διακρίνει τη μονόχρωμη από την έγχρωμη φωτογραφία, ένα ξεχωριστό βαθμολογία πολυχρωμίας χρησιμοποιήθηκε για την επισήμανση εικόνων χαμηλού κορεσμού ως μονόχρωμων.

Ο εκπαιδευμένος ταξινομητής εφαρμόστηκε στη συνέχεια σε ολόκληρο το σύνολο δεδομένων, με τα αποτελέσματα να δείχνουν ότι και τα τρία μοντέλα επιβάλλουν συνεπείς στυλιστικές προεπιλογές ανά περίοδο: το SDXL συνδέει τον 17ο και 18ο αιώνα με χαρακτικά, ενώ τα SD3 και FLUX.1 τείνουν προς τη ζωγραφική. Στις δεκαετίες του εικοστού αιώνα, το SD3 ευνοεί τη μονόχρωμη φωτογραφία, ενώ το SDXL συχνά επιστρέφει σύγχρονες εικονογραφήσεις.

Αυτές οι προτιμήσεις διαπιστώθηκε ότι επιμένουν παρά τις άμεσες προσαρμογές, γεγονός που υποδηλώνει ότι τα μοντέλα κωδικοποιούν εδραιωμένους δεσμούς μεταξύ στυλ και ιστορικού πλαισίου.

Προβλέπονται οπτικά στυλ δημιουργημένων εικόνων σε διάφορες ιστορικές περιόδους για κάθε μοντέλο διάχυσης, με βάση 1,000 δείγματα ανά περίοδο και ανά μοντέλο.

Προβλέπονται οπτικά στυλ δημιουργημένων εικόνων σε διάφορες ιστορικές περιόδους για κάθε μοντέλο διάχυσης, με βάση 1,000 δείγματα ανά περίοδο και ανά μοντέλο.

Για να ποσοτικοποιηθεί πόσο ισχυρά ένα μοντέλο συνδέει μια ιστορική περίοδο με μια συγκεκριμένη οπτικό στυλ, οι συγγραφείς ανέπτυξαν μια μετρική που ονομάζουν Κυριαρχία Οπτικού Στυλ (VSD). Για κάθε μοντέλο και χρονική περίοδο, το VSD ορίζεται ως το ποσοστό των εξόδων που προβλέπεται να μοιράζονται το πιο κοινό στυλ:

Παραδείγματα στυλιστικών προκαταλήψεων σε όλα τα μοντέλα.

Παραδείγματα στυλιστικών προκαταλήψεων σε όλα τα μοντέλα.

Μια υψηλότερη βαθμολογία υποδεικνύει ότι ένα μόνο στυλ κυριαρχεί στα αποτελέσματα για την εν λόγω περίοδο, ενώ μια χαμηλότερη βαθμολογία υποδηλώνει μεγαλύτερη διακύμανση. Αυτό καθιστά δυνατή τη σύγκριση του πόσο στενά κάθε μοντέλο προσκολλάται σε συγκεκριμένες στυλιστικές συμβάσεις διαχρονικά.

Εφαρμοσμένη στο πλήρες σύνολο δεδομένων HistVis, η μέτρηση VSD αποκαλύπτει διαφορετικά επίπεδα σύγκλισης, βοηθώντας να διευκρινιστεί πόσο έντονα κάθε μοντέλο περιορίζει την οπτική ερμηνεία του παρελθόντος:

Ο παραπάνω πίνακας αποτελεσμάτων δείχνει τις βαθμολογίες VSD σε όλες τις ιστορικές περιόδους για κάθε μοντέλο. Τον 17ο και 18ο αιώνα, το SDXL τείνει να παράγει χαρακτικά με υψηλή συνέπεια, ενώ τα SD3 και FLUX.1 ευνοούν τη ζωγραφική. Τον 20ό και 21ο αιώνα, τα SD3 και FLUX.1 στρέφονται προς τη φωτογραφία, ενώ το SDXL παρουσιάζει μεγαλύτερη ποικιλία, αλλά συχνά προτιμά την εικονογράφηση.

Και τα τρία μοντέλα επιδεικνύουν ισχυρή προτίμηση για μονόχρωμες εικόνες στις πρώτες δεκαετίες του 20ού αιώνα, ιδιαίτερα στις δεκαετίες του 1910, του 1930 και του 1950.

Για να ελέγξουν εάν αυτά τα μοτίβα θα μπορούσαν να μετριαστούν, οι συγγραφείς χρησιμοποίησαν άμεση μηχανική, ζητώντας ρητά φωτορεαλισμό και αποθαρρύνοντας την μονόχρωμη απόδοση χρησιμοποιώντας αρνητική προτροπή. Σε ορισμένες περιπτώσεις, οι βαθμολογίες κυριαρχίας μειώθηκαν και το στυλ ηγεσίας μετατοπίστηκε, για παράδειγμα, από μονόχρωμη σε (πλαίσιο), τον 17ο και 18ο αιώνα.

Ωστόσο, αυτές οι παρεμβάσεις σπάνια παρήγαγαν πραγματικά φωτορεαλιστικές εικόνες, γεγονός που υποδηλώνει ότι οι στυλιστικές προεπιλογές των μοντέλων είναι βαθιά ριζωμένες.

Ιστορική Συνέπεια

Η επόμενη γραμμή ανάλυσης εξέτασε ιστορική συνέπεια: εάν οι δημιουργημένες εικόνες περιελάμβαναν αντικείμενα που δεν ταίριαζαν στην χρονική περίοδο. Αντί να χρησιμοποιούν μια σταθερή λίστα απαγορευμένων αντικειμένων, οι συγγραφείς ανέπτυξαν μια ευέλικτη μέθοδο που αξιοποίησε μοντέλα μεγάλης γλώσσας (LLM) και μοντέλα οπτικής γλώσσας (VLM) για να εντοπίσουν στοιχεία που φαινόταν εκτός τόπου, με βάση το ιστορικό πλαίσιο.

Η μέθοδος ανίχνευσης ακολούθησε την ίδια μορφή με το σύνολο δεδομένων HistVis, όπου κάθε προτροπή συνδύαζε μια ιστορική περίοδο με μια ανθρώπινη δραστηριότητα. Για κάθε προτροπή, το GPT-4o δημιουργούσε μια λίστα αντικειμένων που θα ήταν εκτός θέσης κατά την καθορισμένη χρονική περίοδο. Και για κάθε προτεινόμενο αντικείμενο, το GPT-4o παρήγαγε ένα ναι-ή-όχι ερώτηση που έχει σχεδιαστεί για να ελέγξει εάν το αντικείμενο αυτό εμφανίστηκε στην παραγόμενη εικόνα.

Για παράδειγμα, δεδομένης της προτροπής «Ένας άνθρωπος που άκουγε μουσική τον 18ο αιώνα», το GPT-4o μπορεί να αναγνωρίσει σύγχρονες συσκευές ήχου ως ιστορικά ανακριβείς, και να δημιουργήσουν το ερώτημα Χρησιμοποιεί το άτομο ακουστικά ή ένα smartphone που δεν υπήρχε τον 18ο αιώνα;.

Αυτές οι ερωτήσεις διαβιβάστηκαν πίσω στο GPT-4o σε μια οπτική ρύθμιση ερωτήσεων-απαντήσεων, όπου το μοντέλο εξέτασε την εικόνα και επέστρεψε ένα Ναί or Όχι. απάντηση για το καθένα. Αυτή η διαδικασία επέτρεψε την ανίχνευση ιστορικά απίθανου περιεχομένου χωρίς να βασίζεται σε κάποια προκαθορισμένη ταξινόμηση σύγχρονων αντικειμένων:

Παραδείγματα εικόνων που δημιουργήθηκαν και επισημάνθηκαν με τη μέθοδο ανίχνευσης δύο σταδίων, οι οποίες παρουσιάζουν αναχρονιστικά στοιχεία: ακουστικά τον 18ο αιώνα, ηλεκτρική σκούπα τον 19ο αιώνα, φορητό υπολογιστή τη δεκαετία του 1930 και smartphone τη δεκαετία του 1950.

Παραδείγματα εικόνων που δημιουργήθηκαν και επισημάνθηκαν με τη μέθοδο ανίχνευσης δύο σταδίων, οι οποίες παρουσιάζουν αναχρονιστικά στοιχεία: ακουστικά τον 18ο αιώνα, ηλεκτρική σκούπα τον 19ο αιώνα, φορητό υπολογιστή τη δεκαετία του 1930 και smartphone τη δεκαετία του 1950.

Για να μετρήσουν πόσο συχνά εμφανίζονταν αναχρονισμοί στις δημιουργημένες εικόνες, οι συγγραφείς εισήγαγαν μια απλή μέθοδο για τη βαθμολόγηση της συχνότητας και της σοβαρότητας. Πρώτον, έλαβαν υπόψη μικρές διαφορές στη διατύπωση στον τρόπο με τον οποίο το GPT-4o περιέγραφε το ίδιο αντικείμενο.

Για παράδειγμα, οι σύγχρονες συσκευές ήχου και οι ψηφιακές συσκευές ήχου αντιμετωπίστηκαν ως ισοδύναμες. Για να αποφευχθεί η διπλή καταμέτρηση, σύστημα ασαφούς αντιστοίχισης χρησιμοποιήθηκε για την ομαδοποίηση αυτών των επιφανειακών παραλλαγών χωρίς να επηρεαστούν πραγματικά διακριτές έννοιες.

Μόλις ομαλοποιήθηκαν όλοι οι προτεινόμενοι αναχρονισμοί, υπολογίστηκαν δύο μετρήσεις: συχνότητα μέτρησε πόσο συχνά ένα δεδομένο αντικείμενο εμφανιζόταν σε εικόνες για μια συγκεκριμένη χρονική περίοδο και μοντέλο· και αυστηρότητα μέτρησε πόσο αξιόπιστα εμφανιζόταν αυτό το αντικείμενο μόλις είχε προταθεί από το μοντέλο.

Εάν ένα σύγχρονο τηλέφωνο επισημάνθηκε δέκα φορές και εμφανίστηκε σε δέκα δημιουργημένες εικόνες, έλαβε βαθμολογία σοβαρότητας 1.0. Εάν εμφανίστηκε μόνο σε πέντε, η βαθμολογία σοβαρότητας ήταν 0.5. Αυτές οι βαθμολογίες βοήθησαν στον εντοπισμό όχι μόνο του εάν υπήρχαν αναχρονισμοί, αλλά και του πόσο σταθερά ήταν ενσωματωμένοι στην έξοδο του μοντέλου για κάθε περίοδο:

Τα δεκαπέντε κορυφαία αναχρονιστικά στοιχεία για κάθε μοντέλο, απεικονιζόμενα κατά συχνότητα στον άξονα x και σοβαρότητα στον άξονα y. Οι κύκλοι υποδεικνύουν τα στοιχεία που κατατάσσονται στα δεκαπέντε κορυφαία κατά συχνότητα, τα τρίγωνα κατά σοβαρότητα και τα διαμάντια και στα δύο.

Τα δεκαπέντε κορυφαία αναχρονιστικά στοιχεία για κάθε μοντέλο, απεικονιζόμενα κατά συχνότητα στον άξονα x και σοβαρότητα στον άξονα y. Οι κύκλοι υποδεικνύουν τα στοιχεία που κατατάσσονται στα δεκαπέντε κορυφαία κατά συχνότητα, τα τρίγωνα κατά σοβαρότητα και τα διαμάντια και στα δύο.

Παραπάνω βλέπουμε τους δεκαπέντε πιο συνηθισμένους αναχρονισμούς για κάθε μοντέλο, καταταγμένους με βάση τη συχνότητα εμφάνισής τους και τη συνέπεια με την οποία αντιστοιχούσαν στις προτροπές.

Τα ρούχα ήταν συχνά αλλά διάσπαρτα, ενώ αντικείμενα όπως συσκευές ήχου και εξοπλισμός σιδερώματος εμφανίζονταν λιγότερο συχνά, αλλά με υψηλή συνέπεια - μοτίβα που υποδηλώνουν ότι τα μοντέλα συχνά ανταποκρίνονται στις δραστηριότητα στην προτροπή περισσότερο από την χρονική περίοδο.

Η SD3 εμφάνισε το υψηλότερο ποσοστό αναχρονισμών, ειδικά σε εικόνες του 19ου αιώνα και της δεκαετίας του 1930, ακολουθούμενη από την FLUX.1 και την SDXL.

Για να ελέγξουν πόσο καλά ταίριαζε η μέθοδος ανίχνευσης με την ανθρώπινη κρίση, οι συγγραφείς διεξήγαγαν μια μελέτη χρηστών που περιελάμβανε 1,800 τυχαία επιλεγμένες εικόνες από το SD3 (το μοντέλο με το υψηλότερο ποσοστό αναχρονισμού), με κάθε εικόνα να αξιολογείται από τρεις crowdworkers. Μετά το φιλτράρισμα για αξιόπιστες απαντήσεις, συμπεριλήφθηκαν 2,040 κρίσεις από 234 χρήστες και η μέθοδος συμφώνησε με την πλειοψηφία στο 72% των περιπτώσεων.

Γραφικό περιβάλλον χρήστη (GUI) για τη μελέτη αξιολόγησης σε ανθρώπους, που δείχνει οδηγίες εργασιών, παραδείγματα ακριβών και αναχρονιστικών εικόνων και ερωτήσεις ναι-όχι για τον εντοπισμό χρονικών ασυνεπειών στα παραγόμενα αποτελέσματα.

Γραφικό περιβάλλον χρήστη (GUI) για τη μελέτη αξιολόγησης σε ανθρώπους, που δείχνει οδηγίες εργασιών, παραδείγματα ακριβών και αναχρονιστικών εικόνων και ερωτήσεις ναι-όχι για τον εντοπισμό χρονικών ασυνεπειών στα παραγόμενα αποτελέσματα.

Δημογραφικά στοιχεία

Η τελική ανάλυση εξέτασε τον τρόπο με τον οποίο τα μοντέλα απεικονίζουν τη φυλή και το φύλο με την πάροδο του χρόνου. Χρησιμοποιώντας το σύνολο δεδομένων HistVis, οι συγγραφείς συνέκριναν τα αποτελέσματα του μοντέλου με τις βασικές εκτιμήσεις που δημιουργήθηκαν από ένα γλωσσικό μοντέλο. Αυτές οι εκτιμήσεις δεν ήταν ακριβείς, αλλά προσέφεραν μια γενική αίσθηση ιστορικής αληθοφάνειας, βοηθώντας να αποκαλυφθεί εάν τα μοντέλα προσάρμοσαν τις απεικονίσεις στην προβλεπόμενη περίοδο.

Για να αξιολογήσουν αυτές τις απεικονίσεις σε κλίμακα, οι συγγραφείς δημιούργησαν μια δέσμη δεδομένων που συνέκρινε δημογραφικά στοιχεία που δημιουργήθηκαν από το μοντέλο με τις κατά προσέγγιση προσδοκίες για κάθε ώρα και δραστηριότητα. Αρχικά χρησιμοποίησαν το FairFace ταξινομητής, ένα ResNet34Εργαλείο βασισμένο σε πάνω από εκατό χιλιάδες εικόνες, για την ανίχνευση φύλου και φυλής στα παραγόμενα αποτελέσματα, επιτρέποντας τη μέτρηση της συχνότητας με την οποία τα πρόσωπα σε κάθε σκηνή ταξινομήθηκαν ως αρσενικά ή θηλυκά, καθώς και την παρακολούθηση φυλετικών κατηγοριών σε διάφορες περιόδους.

Παραδείγματα δημιουργημένων εικόνων που δείχνουν δημογραφική υπερεκπροσώπηση σε διαφορετικά μοντέλα, χρονικές περιόδους και δραστηριότητες.

Παραδείγματα δημιουργημένων εικόνων που δείχνουν δημογραφική υπερεκπροσώπηση σε διαφορετικά μοντέλα, χρονικές περιόδους και δραστηριότητες.

Τα αποτελέσματα χαμηλής αξιοπιστίας φιλτραρίστηκαν για τη μείωση του θορύβου και οι προβλέψεις υπολογίστηκαν κατά μέσο όρο σε όλες τις εικόνες που συνδέονταν με μια συγκεκριμένη ώρα και δραστηριότητα. Για να ελεγχθεί η αξιοπιστία των μετρήσεων FairFace, χρησιμοποιήθηκε ένα δεύτερο σύστημα βασισμένο σε βαθύ πρόσωπο χρησιμοποιήθηκε σε ένα δείγμα 5,000 εικόνων. Οι δύο ταξινομητές έδειξαν ισχυρή συμφωνία, υποστηρίζοντας τη συνέπεια των δημογραφικών μετρήσεων που χρησιμοποιήθηκαν στη μελέτη.

Για να συγκρίνουν τα αποτελέσματα του μοντέλου με την ιστορική πιθανοφάνεια, οι συγγραφείς ζήτησαν από το GPT-4o να εκτιμήσει την αναμενόμενη κατανομή φύλου και φυλής για κάθε δραστηριότητα και χρονική περίοδο. Αυτές οι εκτιμήσεις χρησίμευσαν ως πρόχειρες τιμές βάσης και όχι ως βασική αλήθεια. Στη συνέχεια χρησιμοποιήθηκαν δύο μετρήσεις: υποεκπροσώπηση και υπερεκπροσώπηση, μετρώντας πόσο τα αποτελέσματα του μοντέλου αποκλίνουν από τις προσδοκίες του LLM.

Τα αποτελέσματα έδειξαν σαφή μοτίβα: Το FLUX.1 συχνά υπερεκπροσωπούσε τους άνδρες, ακόμη και σε σενάρια όπως μαγείρεμα, όπου αναμενόταν να είναι γυναίκες. Η SD3 και η SDXL παρουσίασαν παρόμοιες τάσεις σε όλες τις κατηγορίες, όπως δουλειά, εκπαίδευση και θρησκείαΤα λευκά πρόσωπα εμφανίστηκαν συνολικά περισσότερο από το αναμενόμενο, αν και αυτή η μεροληψία μειώθηκε σε πιο πρόσφατες περιόδους. Και ορισμένες κατηγορίες εμφάνισαν απροσδόκητες αυξήσεις στην εκπροσώπηση των μη λευκών, γεγονός που υποδηλώνει ότι η συμπεριφορά του μοντέλου μπορεί να αντανακλά συσχετίσεις με τα σύνολα δεδομένων και όχι με το ιστορικό πλαίσιο:

Υπερεκπροσώπηση και υποεκπροσώπηση φύλου και φυλής στις εκροές FLUX.1 σε όλους τους αιώνες και τις δραστηριότητες, που εμφανίζονται ως απόλυτες διαφορές από τις δημογραφικές εκτιμήσεις GPT-4o.

Υπερεκπροσώπηση και υποεκπροσώπηση φύλου και φυλής στις εκροές FLUX.1 σε όλους τους αιώνες και τις δραστηριότητες, που εμφανίζονται ως απόλυτες διαφορές από τις δημογραφικές εκτιμήσεις GPT-4o.

Οι συντάκτες συμπεραίνουν:

«Η ανάλυσή μας αποκαλύπτει ότι τα μοντέλα [Text-to-image/TTI] βασίζονται σε περιορισμένες στυλιστικές κωδικοποιήσεις και όχι σε λεπτές κατανοήσεις των ιστορικών περιόδων. Κάθε εποχή είναι στενά συνδεδεμένη με ένα συγκεκριμένο οπτικό στυλ, με αποτέλεσμα μονοδιάστατες απεικονίσεις της ιστορίας.»

Αξίζει να σημειωθεί ότι οι φωτορεαλιστικές απεικονίσεις ανθρώπων εμφανίζονται μόνο από τον 20ό αιώνα και μετά, με σπάνιες μόνο εξαιρέσεις στα FLUX.1 και SD3, γεγονός που υποδηλώνει ότι τα μοντέλα ενισχύουν τις μαθησιακές συσχετίσεις αντί να προσαρμόζονται ευέλικτα στα ιστορικά συμφραζόμενα, διαιωνίζοντας την ιδέα ότι ο ρεαλισμός είναι ένα σύγχρονο χαρακτηριστικό.

«Επιπλέον, οι συχνοί αναχρονισμοί υποδηλώνουν ότι οι ιστορικές περίοδοι δεν διαχωρίζονται με σαφήνεια στους λανθάνοντες χώρους αυτών των μοντέλων, καθώς τα σύγχρονα αντικείμενα συχνά αναδύονται σε προ-μοντέρνα περιβάλλοντα, υπονομεύοντας την αξιοπιστία των συστημάτων TTI σε εκπαιδευτικά και πολιτιστικά πλαίσια.»

Συμπέρασμα

Κατά την εκπαίδευση ενός μοντέλου διάχυσης, οι νέες έννοιες δεν εγκαθίστανται εύκολα σε προκαθορισμένες θέσεις εντός του λανθάνοντος χώρου. Αντίθετα, σχηματίζουν συστάδες που διαμορφώνονται από τη συχνότητα εμφάνισής τους και από την εγγύτητά τους σε σχετικές ιδέες. Το αποτέλεσμα είναι μια χαλαρά οργανωμένη δομή όπου οι έννοιες υπάρχουν σε σχέση με τη συχνότητά τους και το τυπικό τους πλαίσιο, αντί για οποιονδήποτε καθαρό ή εμπειρικό διαχωρισμό.

Αυτό καθιστά δύσκολη την απομόνωση αυτού που θεωρείται «ιστορικό» μέσα σε ένα μεγάλο σύνολο δεδομένων γενικής χρήσης. Όπως υποδηλώνουν τα ευρήματα της νέας εργασίας, πολλές χρονικές περίοδοι αντιπροσωπεύονται περισσότερο από το εξετάσουμε των μέσων που χρησιμοποιούνται για την απεικόνισή τους παρά από οποιαδήποτε βαθύτερη ιστορική λεπτομέρεια.

Αυτός είναι ένας λόγος για τον οποίο παραμένει δύσκολο να δημιουργηθεί μια φωτορεαλιστική εικόνα ποιότητας 2025 ενός χαρακτήρα από (για παράδειγμα) τον 19ο αιώνα. Στις περισσότερες περιπτώσεις, το μοντέλο θα βασίζεται σε οπτικά τροπικά στοιχεία που προέρχονται από τον κινηματογράφο και την τηλεόραση. Όταν αυτά δεν ανταποκρίνονται στο αίτημα, δεν υπάρχουν πολλά άλλα στοιχεία στα δεδομένα για να αντισταθμιστεί. Η γεφύρωση αυτού του χάσματος πιθανότατα θα εξαρτηθεί από μελλοντικές βελτιώσεις στην αποσαφήνιση επικαλυπτόμενων εννοιών.

 

Πρώτη δημοσίευση Δευτέρα, 26 Μαΐου 2025