Τεχνητή νοημοσύνη

Το Τμήμα Συνθέσης Εικόνων Έχει Υιοθετήσει Ένα Ελαττωματικό Μέτρο, Κατά την Έρευνα

Published December 20, 2021

Updated April 28, 2026

Martin Anderson

Το 2021 ήταν ένα χρόνο ακατάπαυστου προόδου και ταχύτατου ρυθμού δημοσίευσης στο τμήμα σύνθεσης εικόνων, προσφέροντας μια ροή νέων καινοτομιών και βελτιώσεων στις τεχνολογίες που είναι ικανές να αναπαράγουν ανθρώπινες προσωπικότητες μέσω νευρωνικής απόδοσης, deepfakes, και μιας σειράς νέων προσεγγίσεων.

Ωστόσο, ερευνητές από τη Γερμανία ισχυρίζονται τώρα ότι ο τυπικός τρόπος που χρησιμοποιείται για να κρίνει αυτόματα την πραγματικότητα των συνθετικών εικόνων είναι μοιραία ελαττωματικός· και ότι οι εκατοντάδες, ακόμη και χιλιάδες ερευνητές σε όλο τον κόσμο που βασίζονται σε αυτό για να μειώσουν το κόστος των ακριβών αποτελεσμάτων της αξιολόγησης με βάση τον άνθρωπο μπορεί να πηγαίνουν σε μια άβυσσο.

Για να αποδείξουν πώς ο τυπικός τρόπος, Fréchet Inception Distance (FID), δεν ανταποκρίνεται στα ανθρώπινα πρότυπα για την αξιολόγηση εικόνων, οι ερευνητές αναπτύξαν τους δικούς τους GANs, που βελτιώθηκαν για FID (τώρα ένα κοινό μέτρο). Βρήκαν ότι το FID ακολουθεί τις δικές του εμμονές, με βάση τον υποκείμενο κώδικα με einen πολύ διαφορετικό σκοπό από αυτόν της σύνθεσης εικόνων, και ότι συνήθως αποτυγχάνει να επιτύχει ένα ‘ανθρώπινο’ πρότυπο διακρίσεων:

FID scores (lower is better) for images generated by various models using standard datasets and architectures. The researchers of the new paper pose the question ‘Would you agree with these rankings?’. Source: https://openreview.net/pdf?id=mLG96UpmbYz

Επιπλέον της δήλωσής του ότι το FID δεν είναι κατάλληλο για τον προορισμό του, το έγγραφο προτείνει επίσης ότι ‘πρόδηλες’ θεραπείες, όπως η αντικατάσταση του εσωτερικού κινητήρα με ανταγωνιστικούς κινητήρες, θα ανταλλάξουν απλώς ένα σύνολο προκαταλήψεων με ένα άλλο. Οι συγγραφείς προτείνουν ότι τώρα ανήκει σε νέες ερευνητικές πρωτοβουλίες να αναπτύξουν καλύτερα μέτρα για να αξιολογήσουν την ‘αυθεντικότητα’ στις συνθετικά παραγόμενα φωτογραφίες.

Το έγγραφο έχει τον τίτλο Εσωτερικές Προκαταλήψεις στο Fréchet Inception Distance, και προέρχεται από τον Steffen Jung στο Ινστιτούτο Πληροφορικής Max Planck στο Saarland, και την Margret Keuper, Καθηγήτρια για την Οπτική Υπολογιστική στο Πανεπιστήμιο της Siegen.

Η Αναζήτηση ενός Συστήματος Βαθμολογίας για τη Σύνθεση Εικόνων

Όπως σημειώνει η νέα έρευνα, η πρόοδος στα πλαίσια σύνθεσης εικόνων, όπως τα GANs και οι αρχιτεκτονικές κωδικοποιητή/αποκωδικοποιητή, έχει ξεπεράσει τις μεθόδους με τις οποίες τα αποτελέσματα τέτοιων συστημάτων μπορούν να κριθούν. Εκτός από το ότι είναι ακριβές και επομένως δύσκολο να κλιμακωθούν, η αξιολόγηση του ανθρώπου για την έξοδο αυτών των συστημάτων δεν προσφέρει μια εμπειρική και αναπαραγώγιμη μέθοδο αξιολόγησης.

Επομένως, ένας αριθμός πλαισίων μετρήσεων έχει εμφανιστεί, συμπεριλαμβανομένου του İnception Score (IS), που παρουσιάζεται στο έγγραφο του 2016 Βελτιωμένες Τεχνικές για την Εκπαίδευση GANs, που συνυπογράφεται από τον εφευρέτη GAN, Ian Goodfellow.

Η αποτίμηση του IS score ως einem ευρέως εφαρμοσμένου μέτρου για πολλά δίκτυα GAN το 2018 οδήγησε στην ευρεία υιοθέτηση του FID στη κοινότητα σύνθεσης εικόνων GAN. Ωστόσο, όπως και ο Inception Score, το FID βασίζεται στο δίκτυο ταξινόμησης εικόνων Inception v3 της Google (IV3).

Οι ερευνητές από τη Γερμανία έχουν διαπιστώσει ότι το IV3 έχει μια τάση να εξάγει άκρες και υφές, αντί για χρώμα και πληροφορίες έντασης, οι οποίες θα ήταν πιο σημαντικά δείκτες αυθεντικότητας για συνθετικές εικόνες· και ότι ο αρχικός σκοπός του ανίχνευσης αντικειμένων έχει επομένως αναληφθεί ακατάλληλα για έναν ανεπαρκή σκοπό. Οι συγγραφείς δηλώνουν*:

‘[Inception v3] έχει μια προκατάληψη προς την εξαγωγή χαρακτηριστικών με βάση τις άκρες και τις υφές, αντί για χρώμα και πληροφορίες έντασης. Αυτό συμφωνεί με την πipeline αυγής που εισάγει χρωματικές παραμορφώσεις, αλλά διατηρεί την υψηλή συχνότητα πληροφοριών άθικτη (σε αντίθεση, για παράδειγμα, με αυγή με Gaussian blur).

‘Συνεπώς, το FID κληρονομεί αυτή τη προκατάληψη. Όταν χρησιμοποιείται ως μέτρο κατάταξης, γενετικά μοντέλα που αναπαράγουν υφές καλά μπορεί να προτιμούνται από μοντέλα που αναπαράγουν καλά τις κατανομές χρώματος.’

Fréchet Inception Distance

Το FID συγκρίνει πώς οι χαρακτηριστικές διανύσματα διανέμονται σε όλο το σύνολο δεδομένων εκπαίδευσης που χρησιμοποιείται για να δημιουργηθεί ένα μοντέλο GAN (ή παρόμοια λειτουργικότητα) και τα αποτελέσματα αυτού του συστήματος.

Επομένως, αν ένα πλαίσιο GAN έχει εκπαιδευτεί σε 10.000 εικόνες (για παράδειγμα) διασημοτήτων, το FID συγκρίνει τις αυθεντικές (πραγματικές) εικόνες με τις ψευδείς εικόνες που παράγονται από το GAN. Το χαμηλότερο σκορ FID, το κοντινότερο το GAN έχει φτάσει σε ‘φωτορεαλιστικές’ εικόνες, σύμφωνα με τα κριτήρια του FID.

Από το έγγραφο, αποτελέσματα ενός GAN που εκπαιδεύτηκε στο FFHQ64, ένα υποσύνολο του πολύ δημοφιλούς συνόλου δεδομένων FFHQ της NVIDIA. Εδώ, αν και το σκορ FID είναι ένα θαυμάσιο χαμηλό 5,38, τα αποτελέσματα δεν είναι ευχάριστα ή πειστικά για τον μέσο άνθρωπο.

Από το έγγραφο, αποτελέσματα ενός GAN που εκπαιδεύτηκε στο FFHQ64, ένα υποσύνολο του πολύ δημοφιλούς συνόλου δεδομένων FFHQ dataset της NVIDIA. Εδώ, αν και το σκορ FID είναι ένα θαυμάσιο χαμηλό 5,38, τα αποτελέσματα δεν είναι ευχάριστα ή πειστικά για τον μέσο άνθρωπο.

Το πρόβλημα, οι συγγραφείς ισχυρίζονται, είναι ότι το Inception v3, των οποίων οι υποθέσεις ενεργοποιούν το Fréchet Inception Distance, δεν κοιτάζει στις σωστές θέσεις – τουλάχιστον, όχι όταν θεωρείται ο σκοπός που έχει.

Το Inception V3 έχει εκπαιδευτεί στο ImageNet object recognition challenge, một εργασία που είναι αμφισβητήσιμη με τον τρόπο που έχουν εξελιχθεί οι στόχοι της σύνθεσης εικόνων τα τελευταία χρόνια. IV3 προκαλεί την αντοχή ενός μοντέλου με την εκτέλεση δεδομένων: το γυρίζει τυχαία, το κομματιάζει σε τυχαίο μέγεθος μεταξύ 8-100%, αλλάζει την αναλογία πλευρών (σε einen εύρος από 3/4 έως 4/3), και τυχαία εισάγει χρωματικές παραμορφώσεις σχετικά με την φωτεινότητα, τη χρωματική饱和度 και την αντίθεση.

Οι ερευνητές από τη Γερμανία έχουν βρει ότι το IV3 έχει μια τάση να εξάγει άκρες και υφές, αντί για χρώμα και πληροφορίες έντασης, οι οποίες θα ήταν πιο σημαντικά δείκτες αυθεντικότητας για συνθετικές εικόνες· και ότι ο αρχικός σκοπός του ανίχνευσης αντικειμένων έχει επομένως αναληφθεί ακατάλληλα για έναν ανεπαρκή σκοπό. Οι συγγραφείς δηλώνουν*:

Δεδομένα και Μέθοδος

Για να δοκιμάσουν την υπόθεσή τους, οι συγγραφείς εκπαιδεύτησαν δύο αρχιτεκτονικές GAN, DCGAN και SNGAN, στο σύνολο δεδομένων ανθρώπινων προσώπων FFHQ της NVIDIA, υποδειγματοποιημένο σε 64² ανάλυση εικόνας, με το παραγόμενο σύνολο δεδομένων που ονομάζεται FFHQ64.

Τρεις διαδικασίες εκπαίδευσης GAN ακολουθήθηκαν: GAN G+D, ένα τυπικό δίκτυο με βάση τον δискριμινατόρα· GAN FID|G+D, όπου το FID εκτελείται ως επιπλέον δискριμινατόρας· και GAN FID|G, όπου το GAN είναι εντελώς ενεργοποιημένο από το ρολό FID.

Τεχνικά, οι συγγραφείς σημειώνουν, η απώλεια FID πρέπει να σταθεροποιήσει την εκπαίδευση, και πιθανώς ακόμη και να αντικαταστήσει πλήρως τον δискριμινατόρα (όπως κάνει στο #3, GAN FID|G), ενώ εξόδους ανθρώπινες-ευχάριστες.

Στην πράξη, τα αποτελέσματα είναι rather διαφορετικά, με – οι συγγραφείς υποθέτουν – τα μοντέλα FID-βοηθούμενα ‘υπερ-προσαρμογή’ στα λάθος μέτρα. Οι ερευνητές σημειώνουν:

‘Υποθέτουμε ότι ο γεννήτωρ μαθαίνει να παράγει ακατάλληλα χαρακτηριστικά για να ταιριάξει με την κατανομή δεδομένων εκπαίδευσης. Αυτή η παρατήρηση γίνεται πιο σοβαρή στην περίπτωση [GAN FID|G] . Εδώ, παρατηρούμε ότι η απουσία δискριμινατόρα οδηγεί σε χωρικά ασυνεχείς κατανομές χαρακτηριστικών. Για παράδειγμα [SNGAN FID|G] προσθέτει κυρίως ένα μόνο μάτι και ευθυγραμμίζει τα χαρακτηριστικά του προσώπου με έναν τρομακτικό τρόπο.’

Παραδείγματα προσώπων που παράγονται από SNGAN FID|G.

Οι συγγραφείς καταλήγουν*:

‘Ενώ οι ανθρώπινοι ανανεωτές θα προτιμούσαν σίγουρα εικόνες που παράγονται από SNGAN D+G hơn από SNGAN FID|G (σε περιπτώσεις όπου η πιστότητα δεδομένων προτιμάται από την τέχνη), βλέπουμε ότι αυτό δεν αντανακλάται από το FID. Επομένως, το FID δεν είναι ευθυγραμμισμένο με την ανθρώπινη αντίληψη.

‘Υποστηρίζουμε ότι τα διακριτικά χαρακτηριστικά που παρέχονται από τα δίκτυα ταξινόμησης εικόνων δεν είναι επαρκή για να παρέχουν τη βάση ενός σημαντικού μέτρου.’

Όχι Εύκολες Εναλλακτικές

Οι συγγραφείς επίσης βρήκαν ότι η αντικατάσταση του Inception V3 με έναν παρόμοιο κινητήρα δεν έλυσε το πρόβλημα. Σε αντικατάσταση του IV3 με ‘μια εκτεταμένη επιλογή διαφορετικών δικτύων ταξινόμησης’, τα οποία δοκιμάστηκαν ενάντια στο ImageNet-C (ένα υποσύνολο του ImageNet που σχεδιάστηκε για να μετρήσει τις συνήθως παραγόμενες διακροτήσεις και παραμορφώσεις στην έξοδο εικόνων από τα πλαίσια σύνθεσης εικόνων), οι ερευνητές δεν μπόρεσαν να βελτιώσουν σημαντικά τα αποτελέσματα:

‘Οι προκαταλήψεις που υπάρχουν στο Inception v3 είναι επίσης ευρέως παρόντες σε άλλα δίκτυα ταξινόμησης. Επιπλέον, βλέπουμε ότι διαφορετικά δίκτυα θα παράγουν διαφορετικές κατάταξεις μεταξύ των τύπων διακροτήσεων.’

Οι συγγραφείς καταλήγουν το έγγραφο με την ελπίδα ότι η συνεχιζόμενη έρευνα θα αναπτύξει ένα ‘ανθρώπινα-ευθυγραμμισμένο και αμερόληπτο μέτρο’ ικανό να ενεργοποιήσει μια δίκαιη κατάταξη για τις αρχιτεκτονικές γεννήτριας εικόνων.

* Authors’ emphasis.

Πρώτη δημοσίευση 2oth Δεκεμβρίου 2021, 1pm GMT+2.

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]

Unite.AI

Το Τμήμα Συνθέσης Εικόνων Έχει Υιοθετήσει Ένα Ελαττωματικό Μέτρο, Κατά την Έρευνα

Η Αναζήτηση ενός Συστήματος Βαθμολογίας για τη Σύνθεση Εικόνων

Fréchet Inception Distance

Δεδομένα και Μέθοδος

Όχι Εύκολες Εναλλακτικές

You may like