Τεχνητή νοημοσύνη

Πώς να γνωρίζετε πότε τα συστήματα σύνθεσης εικόνας παράγουν γνήσιο «πρωτότυπο» υλικό

Ενημερώθηκε on Δεκέμβριος 9, 2022

«Τεντυ αρκουδάκια που εργάζονται σε νέα έρευνα τεχνητής νοημοσύνης υποβρύχια με τεχνολογία της δεκαετίας του 1990» – Πηγή: https://www.creativeboom.com/features/meet-dall-e/

Μια νέα μελέτη από τη Νότια Κορέα πρότεινε μια μέθοδο για να προσδιορίσει εάν τα συστήματα σύνθεσης εικόνων παράγουν γνήσια πρωτότυπες εικόνες ή «μικρές» παραλλαγές στα δεδομένα εκπαίδευσης, δυνητικά ακυρώνοντας τον στόχο τέτοιων αρχιτεκτονικών (όπως η παραγωγή νέων και πρωτότυπων εικόνων). .

Πολύ συχνά, προτείνει η εργασία, το τελευταίο ισχύει, επειδή οι υπάρχουσες μετρήσεις που χρησιμοποιούν τέτοια συστήματα για να βελτιώσουν τις παραγωγικές τους ικανότητες κατά τη διάρκεια της εκπαίδευσης αναγκάζονται να ευνοούν εικόνες που είναι σχετικά κοντά στις (μη ψεύτικες) εικόνες πηγής στο σύνολο δεδομένων .

Σε τελική ανάλυση, εάν μια εικόνα που δημιουργείται είναι «οπτικά κοντά» στα δεδομένα προέλευσης, είναι αναπόφευκτα πιθανό να έχει καλύτερη βαθμολογία για την «αυθεντικότητα» από την «πρωτοτυπία», καθώς είναι «πιστή» – αν δεν είναι εμπνευσμένη.

Σε έναν τομέα που είναι πολύ εκκολαπτόμενος και δεν έχει δοκιμαστεί για να είναι ακόμη γνωστές οι νομικές προεκτάσεις του, αυτό θα μπορούσε αποδεικνύεται σημαντικό νομικό ζήτημα, εάν διαπιστωθεί ότι το εμπορευματοποιημένο περιεχόμενο συνθετικής εικόνας δεν διαφέρει αρκετά από το (συχνά) υλικό πηγής που προστατεύεται από πνευματικά δικαιώματα που είναι επί του παρόντος επιτρέπεται να διαχυθεί ο ερευνητικός τομέας με τη μορφή δημοφιλών συνόλων δεδομένων που έχουν αφαιρεθεί από τον ιστό (η δυνατότητα για μελλοντικές αξιώσεις παραβίασης αυτού του τύπου έχει ήρθαν στο προσκήνιο αρκετά πρόσφατα όσον αφορά το GitHub Co-Pilot AI της Microsoft).

Όσον αφορά την ολοένα πιο συνεκτική και σημασιολογικά ισχυρή παραγωγή από συστήματα όπως το OpenAI DALL-E2, της Google Εικόνακαι της Κίνας CogView εκδόσεις (καθώς και οι χαμηλότερες προδιαγραφές dall-e mini), είναι πολύ λίγοι μετά το γεγονός τρόπους αξιόπιστου ελέγχου για την πρωτοτυπία μιας εικόνας που δημιουργείται.

Πράγματι, η αναζήτηση για μερικές από τις πιο δημοφιλείς από τις νέες εικόνες DALL-E 2 συχνά οδηγεί μόνο σε περαιτέρω περιπτώσεις αυτών των ίδιων εικόνων, ανάλογα με τη μηχανή αναζήτησης.

Η μεταφόρτωση μιας ολοκληρωμένης ομάδας εξόδου 9 εικόνων DALL-E 2 οδηγεί μόνο σε περισσότερες ομάδες εξόδου DALL-E 2. Ο διαχωρισμός και η μεταφόρτωση της πρώτης εικόνας (από αυτήν την ανάρτηση στο Twitter της 8ης Ιουνίου 2022, από τον λογαριασμό "Weird Dall-E Generations") κάνει την Google να προσηλώσει το μπάσκετ της εικόνας, οδηγώντας την αναζήτηση βάσει εικόνας σε ένα σημασιολογικό τυφλό δρομάκι. Για την ίδια αναζήτηση βάσει εικόνας, η Yandex φαίνεται τουλάχιστον να κάνει κάποια πραγματική αποδόμηση και αντιστοίχιση χαρακτηριστικών βάσει pixel.

Η μεταφόρτωση μιας ολοκληρωμένης ομάδας εξόδου 9 εικόνων DALL-E 2 οδηγεί μόνο σε περισσότερες ομάδες εξόδου DALL-E 2, επειδή η δομή πλέγματος είναι το ισχυρότερο χαρακτηριστικό. Διαχωρισμός και ανέβασμα της πρώτης εικόνας (από αυτή η ανάρτηση στο Twitter της 8ης Ιουνίου 2022, από τον λογαριασμό «Weird Dall-E Generations») αναγκάζει την Google να προσηλώσει το μπάσκετ στην εικόνα, οδηγώντας την αναζήτηση βάσει εικόνας σε ένα σημασιολογικό τυφλό δρομάκι. Για την ίδια αναζήτηση βάσει εικόνας, η Yandex φαίνεται τουλάχιστον να κάνει κάποια πραγματική αποδόμηση και αντιστοίχιση χαρακτηριστικών βάσει pixel.

Αν και το Yandex είναι πιο πιθανό από την Αναζήτηση Google να χρησιμοποιήσει το πραγματικό χαρακτηριστικά (δηλαδή μια εικόνα προέρχεται/υπολογίζεται χαρακτηριστικά, όχι απαραίτητα χαρακτηριστικά του προσώπου των ανθρώπων) και οπτικές (και όχι σημασιολογικά) χαρακτηριστικά μιας υποβληθείσας εικόνας για την εύρεση παρόμοιων εικόνων, όλες οι μηχανές αναζήτησης που βασίζονται σε εικόνες είτε έχουν κάποιου είδους ατζέντα ή πρακτική που μπορεί να δυσκολέψει τον εντοπισμό περιπτώσεων πηγή>δημιουργήθηκε λογοκλοπή μέσω αναζητήσεων στο διαδίκτυο.

Επιπλέον, τα δεδομένα εκπαίδευσης για ένα μοντέλο παραγωγής ενδέχεται να μην είναι δημόσια διαθέσιμα στο σύνολό τους, γεγονός που δυσχεραίνει περαιτέρω την ιατροδικαστική εξέταση της πρωτοτυπίας των δημιουργούμενων εικόνων.

Είναι ενδιαφέρον ότι η εκτέλεση μιας αναζήτησης στον ιστό βάσει εικόνας σε μία από τις συνθετικές εικόνες που εμφανίζονται από την Google στο αποκλειστική τοποθεσία Imagen δεν βρίσκει απολύτως τίποτα συγκρίσιμο με το θέμα της εικόνας, όσον αφορά την πραγματική εξέταση της εικόνας και την αμερόληπτη αναζήτηση παρόμοιων εικόνων. Μάλλον, σημασιολογικά σταθεροποιημένα όπως πάντα, τα αποτελέσματα αναζήτησης Εικόνων Google για αυτήν την εικόνα Imagen δεν θα επιτρέπουν μια καθαρή αναζήτηση στον ιστό βάσει εικόνας της εικόνας χωρίς την προσθήκη των όρων αναζήτησης "imagen google" ως πρόσθετη (και περιοριστική) παραμέτρου:

Η Yandex, αντίθετα, βρίσκει πολλές παρόμοιες (ή τουλάχιστον οπτικά σχετικές) εικόνες του πραγματικού κόσμου από την ερασιτεχνική καλλιτεχνική κοινότητα:

Σε γενικές γραμμές, θα ήταν καλύτερο εάν η καινοτομία ή η πρωτοτυπία της παραγωγής των συστημάτων σύνθεσης εικόνας μπορούσε να μετρηθεί με κάποιο τρόπο, χωρίς να χρειάζεται να εξάγονται χαρακτηριστικά από κάθε πιθανή εικόνα που βλέπει στον ιστό στο διαδίκτυο τη στιγμή που εκπαιδεύτηκε το μοντέλο, ή σε μη δημόσια σύνολα δεδομένων που ενδέχεται να χρησιμοποιούν υλικό που προστατεύεται από πνευματικά δικαιώματα.

Σχετικά με αυτό το ζήτημα, ερευνητές από το Μεταπτυχιακό Σχολείο Τεχνητής Νοημοσύνης Kim Jaechul στο Κορεάτικο Ινστιτούτο Επιστήμης και Τεχνολογίας (KAIST AI) συνεργάστηκαν με την παγκόσμια εταιρεία ΤΠΕ και αναζήτησης NAVER Corp για την ανάπτυξη ενός Βαθμολογία σπανιότητας που μπορεί να βοηθήσει στον εντοπισμό των πιο πρωτότυπων δημιουργιών συστημάτων σύνθεσης εικόνας.

Οι εικόνες εδώ δημιουργούνται μέσω StyleGAN-FFHQ. Από αριστερά προς τα δεξιά, οι στήλες δείχνουν από τα χειρότερα έως τα καλύτερα αποτελέσματα. Μπορούμε να δούμε ότι η μέτρηση "Truncation trick" (δείτε παρακάτω) και η μέτρηση Realism έχουν τις δικές τους ατζέντες, ενώ η νέα βαθμολογία "Rarity" (επάνω σειρά) αναζητά συνεκτικές αλλά πρωτότυπες εικόνες (και όχι απλώς συνεκτικές εικόνες). Επειδή υπάρχουν όρια μεγέθους εικόνας σε αυτό το άρθρο, ανατρέξτε στο έγγραφο προέλευσης για καλύτερη λεπτομέρεια και ανάλυση. Πηγή: https://arxiv.org/pdf/2206.08549.pdf

Το νέο χαρτί είναι ο τίτλος Βαθμολογία σπανιότητας: Μια νέα μέτρηση για την αξιολόγηση του ασυνήθιστου των συνθετικών εικόνων, και προέρχεται από τρεις ερευνητές στο KAIST και τρεις από την NAVER Corp.

Πέρα από το «Φτηνό κόλπο»

Μεταξύ των προηγούμενων μετρήσεων που επιδιώκει να βελτιώσει η νέα εφημερίδα είναι το «κόλπο περικοπής» προτείνεται το 2019 σε μια συνεργασία μεταξύ του Πανεπιστημίου Heriot-Watt του Ηνωμένου Βασιλείου και του DeepMind της Google.

Το Trincation Trick χρησιμοποιεί ουσιαστικά μια διαφορετική λανθάνουσα κατανομή για δειγματοληψία από αυτή που χρησιμοποιήθηκε για την εκπαίδευση του παραγωγικού μοντέλου.

Οι ερευνητές που ανέπτυξαν αυτή τη μέθοδο εξεπλάγησαν που λειτούργησε, αλλά παραδέχονται στην αρχική εργασία ότι μειώνει την ποικιλία της παραγόμενης παραγωγής. Ωστόσο, το κόλπο περικοπής έχει γίνει αποτελεσματικό και δημοφιλές, στο πλαίσιο αυτού που θα μπορούσε αναμφισβήτητα να επαναπεριγραφεί ως ένα «φτηνό κόλπο» για την απόκτηση αποτελεσμάτων αυθεντικής εμφάνισης που δεν αφομοιώνουν πραγματικά όλες τις δυνατότητες που είναι εγγενείς στα δεδομένα και μπορεί μοιάζουν με τα δεδομένα πηγής περισσότερο από όσο είναι επιθυμητό.

Όσον αφορά το κόλπο περικοπής, οι συγγραφείς της νέας εργασίας παρατηρούν:

«[Δεν] προορίζεται να δημιουργήσει σπάνια δείγματα σε σύνολα δεδομένων εκπαίδευσης, αλλά μάλλον να συνθέσει τυπικές εικόνες πιο σταθερά. Υποθέτουμε ότι τα υπάρχοντα μοντέλα παραγωγής θα είναι σε θέση να παράγουν δείγματα πλουσιότερα στην πραγματική κατανομή δεδομένων, εάν η γεννήτρια μπορεί να παρακινηθεί να παράγει αποτελεσματικά σπάνια δείγματα.

Της γενικής τάσης να βασιζόμαστε σε παραδοσιακές μετρήσεις όπως η απόσταση έναρξης Frechet (FID, η οποία δέχτηκε έντονη κριτική τον Δεκέμβριο του 2021), η βαθμολογία έναρξης (IS) και η απόσταση έναρξης πυρήνα (KID) ως «δείκτες προόδου» κατά την εκπαίδευση ενός παραγωγικού μοντέλου, οι συγγραφείς σχολιάζουν περαιτέρω*:

Αυτό το σχήμα μάθησης οδηγεί τη γεννήτρια να μην συνθέτει πολύ σπάνια δείγματα που είναι μοναδικά και έχουν ισχυρά χαρακτηριστικά που δεν αντιπροσωπεύουν μεγάλο ποσοστό της πραγματικής κατανομής εικόνας. Παραδείγματα σπάνιων δειγμάτων από δημόσια σύνολα δεδομένων περιλαμβάνουν άτομα με διάφορα αξεσουάρ FFHQ, λευκά ζώα στο AFHQ, να ασυνήθιστα αγάλματα στο Metfaces.

«Η ικανότητα δημιουργίας σπάνιων δειγμάτων είναι σημαντική όχι μόνο επειδή σχετίζεται με την ικανότητα αιχμής των μοντέλων παραγωγής, αλλά και επειδή η μοναδικότητα παίζει σημαντικό ρόλο στις δημιουργικές εφαρμογές όπως οι εικονικοί άνθρωποι.

«Ωστόσο, τα ποιοτικά αποτελέσματα αρκετών πρόσφατων μελετών σπάνια περιέχουν αυτά τα σπάνια παραδείγματα. Υποθέτουμε ότι η φύση των δυνάμεων του αντιθετικού σχήματος μάθησης δημιούργησε κατανομή εικόνων παρόμοια με αυτή ενός συνόλου δεδομένων εκπαίδευσης. Έτσι, οι εικόνες με σαφή ατομικότητα ή σπανιότητα παίρνουν μόνο ένα μικρό μέρος στις εικόνες που συνθέτουν τα μοντέλα».

Τεχνική

Το νέο Rarity Score των ερευνητών προσαρμόζει μια ιδέα που παρουσιάζεται στο νωρίτερα λειτουργεί - η χρήση του K-Κοντινότεροι γείτονες (KNN) για την αναπαράσταση των συστοιχιών γνήσιων (εκπαίδευσης) και συνθετικών (εξόδου) δεδομένων σε ένα σύστημα σύνθεσης εικόνας.

Σχετικά με αυτή τη νέα μέθοδο ανάλυσης, οι συγγραφείς υποστηρίζουν:

«Υποθέτουμε ότι τα συνηθισμένα δείγματα θα είναι πιο κοντά το ένα στο άλλο, ενώ τα μοναδικά και σπάνια δείγματα θα βρίσκονται αραιά στο χώρο των χαρακτηριστικών.»

Η παραπάνω εικόνα των αποτελεσμάτων δείχνει τις μικρότερες αποστάσεις πλησιέστερου γείτονα (NND) από τη μεγαλύτερη, σε μια αρχιτεκτονική StyleGAN που έχει εκπαιδευτεί σε FFHQ.

«Για όλα τα σύνολα δεδομένων, τα δείγματα με τα μικρότερα NND εμφανίζουν αντιπροσωπευτικές και τυπικές εικόνες. Αντίθετα, τα δείγματα με τα μεγαλύτερα NND έχουν έντονη ατομικότητα και διαφέρουν σημαντικά από τις τυπικές εικόνες με τα μικρότερα NND.'

Θεωρητικά, με τη χρήση αυτής της νέας μέτρησης ως διαχωριστή ή τουλάχιστον συμπεριλαμβανομένης της σε μια πιο περίπλοκη αρχιτεκτονική διακρίσεων, ένα σύστημα παραγωγής θα μπορούσε να απομακρυνθεί από την καθαρή μίμηση προς έναν πιο εφευρετικό αλγόριθμο, διατηρώντας παράλληλα την ουσιαστική συνοχή των εννοιών που μπορεί να είναι κρίσιμες για αυθεντική παραγωγή εικόνας (π 'άνδρας', 'γυναίκα', 'αυτοκίνητο', 'Εκκλησία', Κ.λπ.).

Συγκρίσεις και πειράματα

Σε δοκιμές, οι ερευνητές πραγματοποίησαν μια σύγκριση της απόδοσης του Rarity Score τόσο με το Trincation Trick όσο και με το 2019 της NVIDIA Βαθμολογία Ρεαλισμού, και διαπίστωσε ότι σε μια ποικιλία πλαισίων και συνόλων δεδομένων, η προσέγγιση είναι σε θέση να εξατομικεύσει «μοναδικά» αποτελέσματα.

Αν και τα αποτελέσματα που παρουσιάζονται στο έγγραφο είναι πολύ εκτεταμένα για να συμπεριληφθούν εδώ, οι ερευνητές φαίνεται ότι έχουν αποδείξει την ικανότητα της νέας μεθόδου να εντοπίζει τη σπανιότητα τόσο σε εικόνες πηγής (πραγματικές) όσο και σε παραγόμενες (ψευδείς) εικόνες σε μια διαδικασία παραγωγής:

Επιλέξτε παραδείγματα από τα εκτενή οπτικά αποτελέσματα που αναπαράγονται στο χαρτί (δείτε τη διεύθυνση URL πηγής παραπάνω για περισσότερες λεπτομέρειες). Στα αριστερά, γνήσια παραδείγματα από το FFHQ που έχουν πολύ λίγους κοντινούς γείτονες (δηλαδή είναι πρωτότυπα και ασυνήθιστα) στο αρχικό σύνολο δεδομένων. στα δεξιά, ψεύτικες εικόνες που δημιουργούνται από το StyleGAN, τις οποίες η νέα μέτρηση έχει αναγνωρίσει ως πραγματικά πρωτότυπες. Επειδή υπάρχουν όρια μεγέθους εικόνας σε αυτό το άρθρο, ανατρέξτε στο έγγραφο προέλευσης για καλύτερη λεπτομέρεια και ανάλυση.

Η νέα μέτρηση Rarity Score όχι μόνο επιτρέπει τη δυνατότητα αναγνώρισης «καινοφανούς» παραγωγής παραγωγής σε μια ενιαία αρχιτεκτονική, αλλά επίσης, όπως ισχυρίζονται οι ερευνητές, επιτρέπει συγκρίσεις μεταξύ μοντέλων παραγωγής διαφόρων και διαφορετικών αρχιτεκτονικών (π.χ. autoencoder, VAE, GAN κ.λπ. ).

Το άρθρο σημειώνει ότι το Rarity Score διαφέρει από τις προηγούμενες μετρήσεις εστιάζοντας στην ικανότητα ενός παραγωγικού πλαισίου να δημιουργεί μοναδικές και σπάνιες εικόνες, σε αντίθεση με τις «παραδοσιακές» μετρήσεις, οι οποίες εξετάζουν (μάλλον πιο μυωπικά) την ποικιλομορφία μεταξύ των γενεών κατά την εκπαίδευση του μοντέλου.

Beyond Limited Tasks

Αν και οι ερευνητές της νέας δημοσίευσης έχουν διεξαγάγει δοκιμές σε πλαίσια περιορισμένου τομέα (όπως συνδυασμοί γεννήτριας/συνόλου δεδομένων που έχουν σχεδιαστεί για να παράγουν ειδικά φωτογραφίες ανθρώπων ή γατών, για παράδειγμα), η βαθμολογία σπανιότητας μπορεί ενδεχομένως να εφαρμοστεί σε οποιαδήποτε αυθαίρετη διαδικασία σύνθεσης εικόνας όπου είναι επιθυμητό να εντοπιστούν παραγόμενα παραδείγματα που χρησιμοποιούν τις διανομές που προέρχονται από τα εκπαιδευμένα δεδομένα, αντί να αυξάνουν την αυθεντικότητα (και να μειώνουν τη διαφορετικότητα) παρεμβάλλοντας ξένες λανθάνουσες διανομές ή να βασίζονται σε άλλες «συντομεύσεις» που διακυβεύουν την καινοτομία υπέρ της αυθεντικότητας.

Στην πραγματικότητα, μια τέτοια μέτρηση θα μπορούσε δυνητικά να διακρίνει πραγματικά νέα στιγμιότυπα εξόδου σε συστήματα όπως η σειρά DALL-E, χρησιμοποιώντας προσδιορισμένη απόσταση μεταξύ ενός φαινομενικού αποτελέσματος «απώτερου», των δεδομένων εκπαίδευσης και των αποτελεσμάτων από παρόμοιες προτροπές ή εισόδους (π.χ. εικόνα - βασισμένες προτροπές).

Στην πράξη, και ελλείψει σαφούς κατανόησης του βαθμού στον οποίο το σύστημα έχει πραγματικά αφομοιώσει οπτικές και σημασιολογικές έννοιες (συχνά εμποδίζεται από περιορισμένες γνώσεις σχετικά με τα δεδομένα εκπαίδευσης), αυτή θα μπορούσε να είναι μια βιώσιμη μέθοδος για τον εντοπισμό μιας γνήσιας «στιγμής έμπνευση» σε ένα σύστημα παραγωγής – το σημείο στο οποίο ένας επαρκής αριθμός εννοιών και δεδομένων εισόδου έχει οδηγήσει σε κάτι πραγματικά εφευρετικό, αντί για κάτι υπερβολικά παράγωγο ή κοντά στα δεδομένα πηγής.

* Οι μετατροπές μου των ενσωματωμένων παραπομπών των συγγραφέων σε υπερσυνδέσμους.

Πρώτη δημοσίευση 20 Ιουνίου 2022.

Επόμενο

Νέα μέθοδος βοηθά τα αυτοοδηγούμενα αυτοκίνητα να δημιουργούν «αναμνήσεις»

Μην χάσετε

Οι μηχανικοί κατασκευάζουν τσιπ AI με δυνατότητα στοίβαξης και επαναδιαμόρφωσης

Μάρτιν Άντερσον

Συγγραφέας για τη μηχανική μάθηση, την τεχνητή νοημοσύνη και τα μεγάλα δεδομένα.
Προσωπικός ιστότοπος: martinanderson.ai
Επαφή: [προστασία μέσω email]
Twitter: @manders_ai