Connect with us

Το Μέλλον της Εικόνας Παράγωγης με τη Βοήθεια του RAG

Η γωνία του Anderson

Το Μέλλον της Εικόνας Παράγωγης με τη Βοήθεια του RAG

mm
ChatGPT-4o: ‘Decades ago photos were a photochemical process, and typically photographic prints were done in a darkroom, with the wet prints hung from a line like clothes. Show me that environment, with 10 photos drying on a line in darkroom, and a white-coated scientist picking one of them off the line. Bokeh focus, 1792x1024’

Τα γεννητικά μοντέλα διάχυσης όπως το Stable Diffusion, Flux, και τα μοντέλα βίντεο όπως το Hunyuan βασίζονται στις γνώσεις που αποκτήθηκαν κατά τη διάρκεια μιας seule, πλούσιας σε πόροι συνεδρίας εκπαίδευσης χρησιμοποιώντας einen σταθερό σύνολο δεδομένων. Οποιοδήποτε концепτό που εισαχθεί μετά από αυτήν την εκπαίδευση – αναφερόμενο ως το όριο γνώσεων – λείπει από το μοντέλο εκτός αν συμπληρωθεί μέσω λεπτοβελτίωσης ή εξωτερικών τεχνικών προσαρμογής όπως Προσαρμογή Χαμηλού Ρανγκ (LoRA).

Θα ήταν εύκολο αν ένα γεννητικό σύστημα που εξοδεύει εικόνες ή βίντεο θα μπορούσε να επικοινωνήσει με διαδικτυακές πηγές και να τις εντάξει στη διαδικασία γεννήσεων ανάλογα. Με αυτόν τον τρόπο, για παράδειγμα, ένα μοντέλο διάχυσης που δεν γνωρίζει τίποτα για την τελευταία κυκλοφορία της Apple ή της Tesla θα μπορούσε ακόμη να παράγει εικόνες που περιέχουν αυτά τα νέα προϊόντα.

Σχετικά με τα μοντέλα γλωσσών, η πλειονότητα μας είναι εξοικειωμένη με συστήματα όπως το Perplexity, Notebook LM και ChatGPT-4o, που μπορούν να ενσωματώσουν νέα εξωτερική πληροφορία σε ένα Μοντέλο Παράγωγης με Βοήθεια Αναζήτησης (RAG).

Οι διαδικασίες RAG κάνουν τις απαντήσεις του ChatGPT 4o πιο σχετικές.

Οι διαδικασίες RAG κάνουν τις απαντήσεις του ChatGPT 4o πιο σχετικές. Source: https://chatgpt.com/

Ωστόσο, αυτό είναι μια ασυνήθιστη δυνατότητα όταν πρόκειται για την παραγωγή εικόνων, και το ChatGPT θα ομολογήσει τις δικές του περιορισμοί σε αυτόν τον άξονα:

Το ChatGPT 4o έχει κάνει μια καλή εκτίμηση για την οπτικοποίηση μιας καινούργιας κυκλοφορίας ρολογιών, με βάση τη γενική γραμμή και τις περιγραφές που έχει ερμηνεύσει· αλλά δεν μπορεί να ‘απορροφήσει’ και να ενσωματώσει νέες εικόνες σε μια γεννήτρια DALL-E-βάσει.

Το ChatGPT 4o έχει κάνει μια καλή εκτίμηση για την οπτικοποίηση μιας καινούργιας κυκλοφορίας ρολογιών, με βάση τη γενική γραμμή και τις περιγραφές που έχει ερμηνεύσει· αλλά δεν μπορεί να ‘απορροφήσει’ και να ενσωματώσει νέες εικόνες σε μια γεννήτρια DALL-E-βάσει.

Η ενσωμάτωση εξωτερικών δεδομένων σε μια γεννημένη εικόνα είναι μια πρόκληση επειδή η εισερχόμενη εικόνα πρέπει πρώτα να αναλυθεί σε tokens και embeddings, τα οποία στη συνέχεια αντιστοιχούν στις πλησιέστερες γνώσεις του μοντέλου για το αντικείμενο.

Αυτό το πρόβλημα λειτουργεί αποτελεσματικά για εργαλεία μετά την εκπαίδευση όπως το ControlNet, αλλά τέτοιες χειρισμοί παραμένουν σε μεγάλο βαθμό επιφανειακοί, ουσιαστικά διευθύνοντας την ανακτημένη εικόνα μέσω ενός αγωγού απόδοσης, αλλά χωρίς να την ενσωματώσουν βαθιά στην εσωτερική αναπαράσταση του μοντέλου.

Ως αποτέλεσμα, το μοντέλο λείπει της ικανότητας να παράγει νέες προοπτικές με τον τρόπο που τα συστήματα νευρωνικής απόδοσης όπως το NeRF μπορούν, τα οποία κατασκευάζουν σκηνές με αληθινή χωρική και δομική κατανόηση.

Ωριμός Λογισμός

Ένας παρόμοιος περιορισμός εφαρμόζεται σε ερωτήματα RAG-βάσει σε Μεγάλους Μοντέλους Γλωσσών (LLMs), όπως το Perplexity. Όταν ένα μοντέλο αυτού του τύπου επεξεργάζεται εξωτερικά ανακτημένα δεδομένα, λειτουργεί πολύ σαν ένας ενήλικας που σχεδιάζει σε μια ζωή γνώσεων για ναinfer πιθανοότητες για ένα θέμα.

Ωστόσο, όπως ένας άνθρωπος δεν μπορεί να ενσωματώσει νέα πληροφορία στο γνωστικό του πλαίσιο που διαμόρφωσε την θεμελιώδη του κοσμοθεωρία – όταν οι προκαταλήψεις και οι προϋποθέσεις του ήταν ακόμη σε διαμόρφωση – ένα LLM δεν μπορεί να συνδυάσει ομαλά νέα γνώσεις στη προ-εκπαιδευμένη του δομή.

Αντίθετα, μπορεί μόνο να ‘επιρρίπτει’ ή να αντιπαραβάλλει τα νέα δεδομένα με τις υπάρχουσες εσωτερικές γνώσεις του, χρησιμοποιώντας τις μαθημένες αρχές για να αναλύσει και να εικασίες αντί να συνθέσει στο θεμελιώδες επίπεδο.

Αυτή η ανεπάρκεια στην ισοδυναμία μεταξύ αντιπαραβεβλημένων και εσωτερικών γεννήσεων είναι πιθανό να είναι πιο εμφανής σε μια γεννημένη εικόνα παρά σε μια γλωσσική γεννήτρια: οι βαθύτερες συνδέσεις δικτύου και η αυξημένη δημιουργικότητα της ‘μητρικής’ (αντί της RAG-βάσει) γεννήτριας έχει καθοριστεί σε πολλές μελέτες.

Κρυμμένοι Κίνδυνοι της RAG-Ικανής Γεννήτριας Εικόνας

Ακόμη και αν ήταν τεχνικά εφικτό να ενσωματωθούν χωρίς προβλήματα ανακτημένες διαδικτυακές εικόνες σε νεοσυνθεμένες σε ένα RAG-τύπο, οι περιορισμοί ασφαλείας θα παρουσίαζαν μια πρόσθετη πρόκληση.

Πολλά σύνολα δεδομένων που χρησιμοποιούνται για την εκπαίδευση γεννητικών μοντέλων έχουν επιμεληθεί για να ελαττώσουν την παρουσία σαφούς, ρατσιστικής ή βίαιης περιεχομένου, μεταξύ άλλων ευαίσθητων κατηγοριών. Ωστόσο, αυτή η διαδικασία είναι ατελής, και υπολειμματικές συσχετίσεις μπορούν να παραμείνουν. Για να μετριάσει αυτό, συστήματα όπως το DALL·E και το Adobe Firefly βασίζονται σε δευτερεύουσες μηχανισμούς φιλτραρίσματος που ελέγχουν και τις εισερχόμενες προτροπές και τις γεννημένες εξόδους για απαγορευμένο περιεχόμενο.

Ως αποτέλεσμα, ένα απλό φίλτρο NSFW – που αποκλείει κυρίως σαφώς εξωτερική περιεχόμενο – θα ήταν ανεπαρκές για την αξιολόγηση της αποδοχής των ανακτημένων RAG-βάσει δεδομένων. Τέτοιο περιεχόμενο θα μπορούσε ακόμη να είναι προσβλητικό ή βλαβερό με τρόπους που δεν εμπίπτουν στα προκαθορισμένα παραμέτρους επιτήρησης του μοντέλου, потенτικά εισάγοντας υλικό που το AI λείπει της контекτουαλικής ευαισθησίας για να αξιολογήσει σωστά.

Η ανακάλυψη μιας πρόσφατης ευπάθειας στο DeepSeek, που παράγεται από την CCP και που σχεδιάστηκε για να καταστείλει τις συζητήσεις για απαγορευμένο πολιτικό περιεχόμενο, έχει υπογραμμίσει πώς εναλλακτικοί δρόμοι εισαγωγής μπορούν να εκμεταλλευτούν για να παρακάμψουν τις ηθικές προστασίες του μοντέλου· απαιτείται επίσης για τυχαία νέα δεδομένα που ανακτώνται από το διαδίκτυο, όταν προορίζονται να ενσωματωθούν σε μια νέα γεννήτρια εικόνας.

RAG για Γεννήτρια Εικόνας

Παρά τις προκλήσεις και τους πολύπλοκους πολιτικούς τομείς, πολλά έργα έχουν εμφανιστεί που προσπαθούν να χρησιμοποιήσουν μεθόδους RAG-βάσει για να ενσωματώσουν νέα δεδομένα σε οπτικές γεννήτριες.

ReDi

Το 2023 Retrieval-based Diffusion (ReDi) project είναι ένα πλαίσιο χωρίς εκπαίδευση που επιταχύνει την απόδοση του μοντέλου διάχυσης ανακτώντας παρόμοιες τραекторίες από μια προ-υπολογισμένη βάση γνώσεων.

Τιμές από ένα σύνολο δεδομένων μπορούν να ‘δανειστούν’ για μια νέα γεννήτρια στο ReDi. Source: https://arxiv.org/pdf/2302.02285

Τιμές από ένα σύνολο δεδομένων μπορούν να ‘δανειστούν’ για μια νέα γεννήτρια στο ReDi. Source: https://arxiv.org/pdf/2302.02285

Στο контέκστ των μοντέλων διάχυσης, μια τραекторία είναι ο βήμα-προς-βήμα δρόμος που το μοντέλο παίρνει για να παράγει μια εικόνα από καθαρό θόρυβο. Κανονικά, αυτή η διαδικασία συμβαίνει σταδιακά σε πολλά βήματα, με κάθε βήμα να βελτιώνει την εικόνα λίγο περισσότερο.

Το ReDi επιταχύνει αυτή τη διαδικασία αποκτώντας πολλά από αυτά τα βήματα. Αντί να υπολογίζει κάθε einzel βήμα, ανακτά μια παρόμοια προηγούμενη τραекторία από μια βάση δεδομένων και πηδάει μπροστά σε ένα μεταγενέστερο σημείο στη διαδικασία. Αυτό μειώνει τον αριθμό των υπολογισμών που απαιτούνται, καθιστώντας τη γεννήτρια εικόνας διάχυσης πολύ πιο γρήγορη, ενώ διατηρεί ακόμη την ποιότητα υψηλή.

Το ReDi δεν τροποποιεί τα βαρίδια του μοντέλου διάχυσης, αλλά αντίθετα χρησιμοποιεί τη βάση γνώσεων για να αποκλείσει τα μεσοδιαστήματα βημάτων, μειώνοντας τον αριθμό των εκτιμήσεων συναρτήσεων που απαιτούνται για δειγματοληψία.

Φυσικά, αυτό δεν είναι το ίδιο με την ενσωμάτωση συγκεκριμένων εικόνων κατά βούληση σε μια αίτηση γεννήτριας· αλλά σχετίζεται με παρόμοιους τύπους γεννήτριας.

Εκδοθέν το 2022, το έτος που τα μοντέλα διάχυσης κατέλαβαν τη δημόσια φαντασία, το ReDi φαίνεται να είναι μεταξύ των πρώτων προσεγγίσεων διάχυσης που βασίζονται σε μεθοδολογία RAG.

Ωστόσο, θα πρέπει να αναφερθεί ότι το 2021 η Facebook Research κυκλοφόρησε Instance-Conditioned GAN, που προσπάθησε να καταστήσει GAN εικόνες σε νέα εικόνες εισαγωγής, αυτή η προβολή στο.latent χώρο είναι εξαιρετικά κοινή στη βιβλιογραφία, τόσο για GANs όσο και για μοντέλα διάχυσης· η πρόκληση είναι να κάνει τέτοια διαδικασία εκπαίδευσης-ελεύθερη και λειτουργική σε πραγματικό χρόνο, όπως οι μεθόδους RAG-εστιασμένες σε LLMs.

RDM

Μια άλλη πρώιμη προσέγγιση στη RAG-ενισχυμένη γεννήτρια εικόνας είναι Retrieval-Augmented Diffusion Models (RDM), που εισάγει μια ημι-παραμετρική προσέγγιση για γεννήτρια εικόνας. Ενώ τα παραδοσιακά μοντέλα διάχυσης αποθηκεύουν όλες τις γνώσεις που έχουν μάθει μέσα στα νευρωνικά τους παραμετρικά, το RDM βασίζεται σε μια εξωτερική βάση δεδομένων εικόνων:

Ανακτημένες γειτόνες στο RDM*.

Ανακτημένες γειτόνες στο RDM*.

Κατά τη διάρκεια της εκπαίδευσης, το μοντέλο ανακτά γειτόνες (οπτικά ή σεμαντικά παρόμοιες εικόνες) από την εξωτερική βάση δεδομένων, για να οδηγήσει τη διαδικασία γεννήτριας. Αυτό επιτρέπει στο μοντέλο να καταστήσει τις εξόδους του σε πραγματικές οπτικές περιπτώσεις.

Η διαδικασία αναζήτησης τροφοδοτείται από CLIP embeddings, που σχεδιάστηκαν για να αναγκάσουν τις ανακτημένες εικόνες να μοιράζονται σημαντικές ομοιότητες με την ερώτηση, και επίσης να παρέχουν νέα πληροφορία για να βελτιώσουν τη γεννήτρια.

Αυτή η προσέγγιση μειώνει την εξάρτηση από παραμέτρους, διευκολύνοντας μικρότερα μοντέλα που επιτύχουν ανταγωνιστικά αποτελέσματα χωρίς την ανάγκη για εκτεταμένα σύνολα δεδομένων εκπαίδευσης.

Η προσέγγιση RDM υποστηρίζει μεταγενέστερες τροποποιήσεις: οι ερευνητές μπορούν να ανταλλάξουν τη βάση δεδομένων κατά τη διάρκεια της απόδοσης, επιτρέποντας την προσαρμογή σε νέους στυλ, τομείς ή ακόμη και εντελώς διαφορετικές εργασίες όπως η στυλιστική ή η συνθήκη-παράγωγος σύνθεση.

Στις κατώτερες σειρές, βλέπουμε τις γειτόνες που ανακτώνται στην διαδικασία διάχυσης στο RDM*.

Στις κατώτερες σειρές, βλέπουμε τις γειτόνες που ανακτώνται στην διαδικασία διάχυσης στο RDM*.

Μια κλειδί πλεονέκτημα του RDM είναι η ικανότητά του να βελτιώνει τη γεννήτρια εικόνας χωρίς να επανα-εκπαιδεύει το μοντέλο. Απλώς τροποποιώντας τη βάση αναζήτησης, το μοντέλο μπορεί να γενικευθεί σε νέες έννοιες που δεν εκπαιδεύτηκε ρητά. Αυτό είναι ιδιαίτερα χρήσιμο για εφαρμογές όπου τομές τομέα συμβαίνουν, όπως η γεννήτρια ιατρικών εικόνων με βάση εξελισσόμενα σύνολα δεδομένων, ή η προσαρμογή μοντέλων κειμένου-εικόνας για δημιουργικές εφαρμογές.

Αρνητικά, οι μεθόδους αναζήτησης αυτού του τύπου εξαρτώνται από την ποιότητα και τη σχετικότητα της εξωτερικής βάσης δεδομένων, το οποίο καθιστά την επιμέλεια δεδομένων一个 σημαντικό παράγοντα για την επίτευξη υψηλής ποιότητας γεννήσεων; και αυτή η προσέγγιση παραμένει μακριά από μια ισοδύναμη γεννήτρια εικόνας με τον τύπο των RAG-βάσει αλληλεπιδράσεων που είναι τυπικές στα εμπορικά LLMs.

ReMoDiffuse

Το ReMoDiffuse είναι ένα μοντέλο διάχυσης κίνησης με τη βοήθεια αναζήτησης, σχεδιασμένο για τη γεννήτρια 3D ανθρώπινης κίνησης. Αντιθέτως με παραδοσιακά μοντέλα κίνησης που βασίζονται αποκλειστικά σε εκμαθημένες αναπαραστάσεις, το ReMoDiffuse ανακτά σχετικές δείγματα κίνησης από một μεγάλο σύνολο δεδομένων κίνησης και τις ενσωματώνει στη διαδικασία απόσβεσης, σε ένα σχήμα παρόμοιο με το RDM (παραπάνω).

Σύγκριση της RAG-ενισχυμένης ReMoDiffuse (δεξιά) με προηγούμενες μεθόδους. Source: https://arxiv.org/pdf/2304.01116

Σύγκριση της RAG-ενισχυμένης ReMoDiffuse (δεξιά) με προηγούμενες μεθόδους. Source: https://arxiv.org/pdf/2304.01116

Αυτό επιτρέπει στο μοντέλο να παράγει ακολουθίες κίνησης που σχεδιάζονται για να είναι πιο φυσικές και ποικίλες, καθώς και σεμαντικά πιστές στις κειμενικές προτροπές του χρήστη.

Το ReMoDiffuse χρησιμοποιεί einen καινοτόμο υβριδικό μηχανισμό αναζήτησης, ο οποίος επιλέγει ακολουθίες κίνησης με βάση τόσο σεμαντικές όσο και κινηματικές ομοιότητες, με σκοπό να διασφαλίσει ότι οι ανακτημένες κινήσεις δεν είναι μόνο θεματικά σχετικές αλλά και φυσικά πιθανές όταν ενσωματώνονται στη νέα γεννήτρια.

Το μοντέλο στη συνέχεια βελτιώνει αυτά τα ανακτημένα δείγματα χρησιμοποιώντας einen Σημασιολογικά-Ρυθμισμένο Transformer, ο οποίος επιλέγει να ενσωματώσει γνώσεις από τις ανακτημένες κινήσεις ενώ διατηρεί τις χαρακτηριστικές ιδιότητες της γεννημένης ακολουθίας:

Σχήμα της διαδικασίας ReMoDiffuse.

Σχήμα της διαδικασίας ReMoDiffuse.

Η τεχνική Συνθήκης Μίξης του έργου ενισχύει την ικανότητα του μοντέλου να γενικεύει σε διαφορετικές προτροπές και συνθήκες αναζήτησης, ισορροπώντας ανακτημένα δείγματα κίνησης με κειμενικές προτροπές κατά τη διάρκεια της γεννήτριας, και điều chỉnhοντας πόσο βάρος κάθε πηγή λαμβάνει σε κάθε βήμα.

Αυτό μπορεί να βοηθήσει στην πρόληψη αρεστών ή επαναλαμβανόμενων εξόδων, ακόμη και για σπάνιες προτροπές. Επίσης, αντιμετωπίζει το πρόβλημα ευαισθησίας κλίμακας που συχνά εμφανίζεται στις τεχνικές καθοδήγησης ταξινόμησης που χρησιμοποιούνται συνήθως στα μοντέλα διάχυσης.

RA-CM3

Το 2023 έγγραφο του Stanford Retrieval-Augmented Multimodal Language Modeling (RA-CM3) επιτρέπει στο σύστημα να έχει πρόσβαση σε πραγματικό κόσμο πληροφορίας κατά τη διάρκεια της απόδοσης:

Το μοντέλο RA-CM3 του Stanford χρησιμοποιεί ανακτημένες εικόνες από το διαδίκτυο για να ενισχύσει τη διαδικασία γεννήτριας, αλλά παραμένει ένα πρωτότυπο χωρίς δημόσια πρόσβαση. Source: https://cs.stanford.edu/~myasu/files/RACM3_slides.pdf

Το μοντέλο RA-CM3 του Stanford χρησιμοποιεί ανακτημένες εικόνες από το διαδίκτυο για να ενισχύσει τη διαδικασία γεννήτριας, αλλά παραμένει ένα πρωτότυπο χωρίς δημόσια πρόσβαση. Source: https://cs.stanford.edu/~myasu/files/RACM3_slides.pdf

Το RA-CM3 ενσωματώνει ανακτημένα κείμενα και εικόνες στη διαδικασία γεννήτριας, βελτιώνοντας τόσο την κειμενο-εικόνα όσο και την εικόνα-κειμενο σύνθεση. Χρησιμοποιώντας το CLIP για αναζήτηση και einen Transformer ως γεννήτρια, το μοντέλο αναφέρεται σε σχετικές πολυμεσικές εγγραφές πριν από τη σύνθεση της εξόδου.

Βελτιώσεις σε MS-COCO δείχνουν σημαντικές βελτιώσεις έναντι του DALL-E και παρόμοιων συστημάτων, επιτυγχάνοντας μια 12-βαθμιαία Fréchet Inception Distance (FID) μείωση, με πολύ χαμηλότερο υπολογιστικό κόστος.

Ωστόσο, όπως και με άλλες μεθόδους αναζήτησης, το RA-CM3 δεν ενσωματώνει ομαλά τις ανακτημένες γνώσεις. Αντίθετα, τοποθετεί νέα δεδομένα ενάντια στη προ-εκπαιδευμένη του δομή, πολύ σαν ένα LLM που ενισχύει τις απαντήσεις με αποτελέσματα αναζήτησης. Αν και αυτή η μέθοδος μπορεί να βελτιώσει την ακρίβεια των γεγονότων, δεν αντικαθιστά την ανάγκη για ενημερώσεις εκπαίδευσης σε τομείς όπου απαιτείται βαθιά σύνθεση.

Επιπλέον, μια πρακτική εφαρμογή του συστήματος này δεν φαίνεται να έχει κυκλοφορήσει, ακόμη και σε μια API-βάσει πλατφόρμα.

RealRAG

Μια νέα κυκλοφορία από την Κίνα, και αυτή που έχει προκαλέσει αυτή την επισκόπηση των RAG-ενισχυμένων γεννητικών συστημάτων εικόνας, είναι το Retrieval-Augmented Realistic Image Generation (RealRAG).

Εξωτερικές εικόνες που ανακτώνται στο RealRAG (κάτω-μεσαία).

Εξωτερικές εικόνες που ανακτώνται στο RealRAG (κάτω-μεσαία). Source: https://arxiv.o7rg/pdf/2502.00848

Το RealRAG ανακτά πραγματικές εικόνες σχετικών αντικειμένων από μια βάση δεδομένων που έχει επιμεληθεί από δημόσια διαθέσιμα σύνολα δεδομένων όπως το ImageNet, Stanford Cars, Stanford Dogs, και Oxford Flowers. Στη συνέχεια, ενσωματώνει τις ανακτημένες εικόνες στη διαδικασία γεννήτριας, αντιμετωπίζοντας κενά γνώσεων στο μοντέλο.

Ένας κλειδί компонέας του RealRAG είναι η αυτο-ανακλαστική αντίθετη μάθηση, η οποία εκπαιδεύει ένα μοντέλο αναζήτησης για να βρει ενημερωτικές αναφορές εικόνων, αντί για την επιλογή μόνο οπτικά παρόμοιων εικόνων.

Οι συγγραφείς δηλώνουν:

‘Η κλειδί μας είναι να εκπαιδεύσουμε einen ανακτών που ανακτά εικόνες που παραμένουν έξω από τον χώρο γεννήτριας του γεννήτορα, αλλά κοντά στη αναπαράσταση των κειμενικών προτροπών.

‘Για αυτό, πρώτα γεννούμε εικόνες από τις δοθείσες κειμενικές προτροπές και στη συνέχεια χρησιμοποιούμε τις γεννημένες εικόνες ως ερωτήματα για να ανακτήσουμε τις πιο σχετικές εικόνες στη βάση δεδομένων αντικειμένων. Αυτές οι πιο σχετικές εικόνες χρησιμοποιούνται ως ανακλαστικές αρνητικές.’

Αυτή η προσέγγιση διασφαλίζει ότι οι ανακτημένες εικόνες συμβάλλουν λείποντα γνώσεις στη διαδικασία γεννήτριας, αντί να ενισχύουν τις υπάρχουσες προκαταλήψεις του μοντέλου.

Αριστερά, η ανακτημένη αναφορική εικόνα· κέντρο, χωρίς RAG· δεξιά, με τη χρήση της ανακτημένης εικόνας.

Αριστερά, η ανακτημένη αναφορική εικόνα· κέντρο, χωρίς RAG· δεξιά, με τη χρήση της ανακτημένης εικόνας.

Ωστόσο, η εξάρτηση από την ποιότητα αναζήτησης και την κάλυψη της βάσης δεδομένων σημαίνει ότι η αποτελεσματικότητά του μπορεί να ποικίλλει ανάλογα με τη διαθεσιμότητα υψηλής ποιότητας αναφορών. Αν μια σχετική εικόνα δεν υπάρχει στη βάση δεδομένων, το μοντέλο μπορεί ακόμη να παλεύει με άγνωστες έννοιες.

Το RealRAG είναι μια πολύ modulaire αρχιτεκτονική, που προσφέρει συμβατότητα με πολλαπλά άλλα γεννητικά συστήματα, συμπεριλαμβανομένων U-Net-βάσει, DiT-βάσει, και αυτο-αναπαραγωγικών μοντέλων.

Γενικά, η ανακτώντας και επεξεργασία εξωτερικών εικόνων προστίθεται υπολογιστική υπερβολή, και η απόδοση του συστήματος εξαρτάται από το πώς καλά ο μηχανισμός αναζήτησης γενικεύει σε διαφορετικές εργασίες και σύνολα δεδομένων.

Συμπέρασμα

Αυτή είναι μια αντιπροσωπευτική και όχι εξαντλητική επισκόπηση των συστημάτων γεννήτριας εικόνας που ανακτούν εικόνες. Κάποια συστήματα αυτού του τύπου χρησιμοποιούν αναζήτηση μόνο για να βελτιώσουν την κατανόηση της όρασης ή την επιμέλεια συνόλου δεδομένων, μεταξύ άλλων διαφορετικών κινήτρων, παρά να επιδιώκουν να παράγουν εικόνες. Ένα παράδειγμα είναι το Internet Explorer.

Πολλά από τα άλλα RAG-ενσωματωμένα έργα στη βιβλιογραφία παραμένουν ανέκδοτα. Πρωτότυπα, με μόνο δημοσιευμένη έρευνα, περιλαμβάνουν το Re-Imagen, το οποίο, παρά την προέλευσή του από την Google, μπορεί να έχει πρόσβαση μόνο σε εικόνες από μια τοπική προσαρμοσμένη βάση δεδομένων.

Επιπλέον, τον Νοέμβριο του 2024, η Baidu ανακοίνωσε Image-Based Retrieval-Augmented Generation (iRAG), μια νέα πλατφόρμα που χρησιμοποιεί ανακτημένες εικόνες ‘από μια βάση δεδομένων’. Αν και το iRAG αναφέρεται ότι είναι διαθέσιμο στην πλατφόρμα Ernie, δεν φαίνεται να υπάρχουν περαιτέρω λεπτομέρειες σχετικά με αυτή τη διαδικασία αναζήτησης, η οποία φαίνεται να βασίζεται σε μια τοπική βάση δεδομένων (δηλαδή, τοπική προς την υπηρεσία και όχι απευθείας προσβάσιμη στον χρήστη).

Επιπλέον, το 2024 έγγραφο Unified Text-to-Image Generation and Retrieval προσφέρει μια ακόμη RAG-βάσει μέθοδο για να χρησιμοποιήσει εξωτερικές εικόνες για να ενισχύσει τα αποτελέσματα κατά τη διάρκεια της γεννήτριας – και πάλι, από μια τοπική βάση δεδομένων και όχι από ad hoc διαδικτυακές πηγές.

Η ενθουσιασμός γύρω από την RAG-βάσει ενίσχυση στη γεννήτρια εικόνας είναι πιθανό να επικεντρωθεί σε συστήματα που μπορούν να ενσωματώσουν διαδικτυακές πηγές ή χρήστη-ανεβαμένες εικόνες直接 στην γεννήτρια διαδικασία, και που επιτρέπουν στους χρήστες να συμμετέχουν στις επιλογές ή τις πηγές εικόνων.

Ωστόσο, αυτό είναι một σημαντική πρόκληση για τουλάχιστον δύο λόγους· πρώτον, επειδή η αποτελεσματικότητα τέτοιων συστημάτων συνήθως εξαρτάται από βαθιά ενσωματωμένες σχέσεις που διαμορφώθηκαν κατά τη διάρκεια μιας πλούσιας σε πόροι διαδικασίας εκπαίδευσης· και δεύτερον, επειδή οι ανησυχίες σχετικά με την ασφάλεια, τη νομιμότητα και τους περιορισμούς πνευματικής ιδιοκτησίας, όπως αναφέρθηκαν νωρίτερα, κάνουν αυτή τη δυνατότητα απίθανη για μια API-βάσει υπηρεσία web και για εμπορική ανάπτυξη γενικά.

 

* Source: https://proceedings.neurips.cc/paper_files/paper/2022/file/62868cc2fc1eb5cdf321d05b4b88510c-Paper-Conference.pdf

Πρώτη δημοσίευση Τρίτη, 4 Φεβρουαρίου 2025

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]