Τεχνητή νοημοσύνη
Μια Προσωπική Ματιά στις Τάσεις της Λογοτεχνίας της Υπολογιστικής Όρασης το 2024

Έχω ακολουθήσει συνεχώς την έρευνα υπολογιστικής όρασης (CV) και σύνθεσης εικόνων στο Arxiv και αλλού για περίπου πέντε χρόνια, οπότε οι τάσεις γίνονται εμφανείς με τον καιρό, και μετατοπίζονται σε νέες κατευθύνσεις κάθε χρόνο.
Επομένως, καθώς το 2024 φτάνει στο τέλος, σκέφτηκα ότι ήταν σωστό να ρίξω μια ματιά σε κάποιες νέες ή εξελισσόμενες ιδιότητες στις υποβολές του Arxiv στην ενότητα Υπολογιστική Όραση και Αναγνώριση Προτύπων section. Những παρατηρήσεις, αν και ενημερωμένες από εκατοντάδες ώρες μελέτης της σκηνής, είναι αυστηρά anecdata.
Η Συνεχής Άνοδος της Ανατολικής Ασίας
Μέχρι το τέλος του 2023, είχα παρατηρήσει ότι η πλειοψηφία της βιβλιογραφίας στην κατηγορία “σύνθεση φωνής” προέρχονταν από την Κίνα και άλλες περιοχές της ανατολικής Ασίας. Μέχρι το τέλος του 2024, πρέπει να παρατηρήσω (ανεκδοτικά) ότι αυτό ισχύει τώρα και για την έρευνα σύνθεσης εικόνων και βίντεο.
Αυτό δεν σημαίνει ότι η Κίνα και οι γειτονικές χώρες производουν πάντα το καλύτερο έργο (πράγματι, υπάρχει κάποια αποδεικτικά στοιχεία του αντίθετου); ούτε λαμβάνει υπόψη την υψηλή πιθανότητα στην Κίνα (όπως και στη Δύση) ότι κάποια από τα πιο ενδιαφέροντα και ισχυρά νέα συστήματα είναι ιδιόκτητα και εξαιρούνται από τη βιβλιογραφία της έρευνας.
Αλλά αυτό δείχνει ότι η ανατολική Ασία νικά τη Δύση σε όγκο, σε αυτήν την περίπτωση. Αυτό που αξίζει зависит από το βαθμό στο οποίο πιστεύετε στην αποτελεσματικότητα της Edison-style επιμονής, η οποία συνήθως αποδεικνύεται αναποτελεσματική αντιμέτωπη με αδιαπέραστες εμπόδια.
Υπάρχουν πολλά τέτοια εμπόδια στη γενετική AI, και δεν είναι εύκολο να γνωρίζουμε ποια μπορούν να επιλυθούν με την αντιμετώπιση των υφιστάμενων αρχιτεκτονικών, και ποια θα χρειαστούν να ξανασχεδιαστούν από την αρχή.
Хотя οι ερευνητές από την ανατολική Ασία φαίνεται να производουν μεγαλύτερο αριθμό εργασιών υπολογιστικής όρασης, έχω παρατηρήσει μια αύξηση της συχνότητας των έργων τύπου “Φρανκενστάιν” – πρωτοβουλίες που αποτελούν eine σύντηξη προηγούμενων εργασιών, ενώ προστίθενται περιορισμένες αρχιτεκτονικές καινοτομίες (ή πιθανώς μόνο ένα διαφορετικό είδος δεδομένων).
Φέτος, ένας πολύ μεγαλύτερος αριθμός ανατολικοασιατικών (πρωτίστως κινεζικών ή συνεργασιών που涉ονται με την Κίνα) εισόδων φαίνεται να είναι ποσοστιαία οδηγούμενος plutôt από τη μερίδα, αυξάνοντας σημαντικά το αναλογία σήματος προς θόρυβο σε ένα ήδη υπερχρεωμένο πεδίο.
Την ίδια στιγμή, ένας μεγαλύτερος αριθμός ανατολικοασιατικών εργασιών έχει επίσης προσελκύσει την προσοχή και τον θαυμασμό μου το 2024. Έτσι, αν αυτό είναι όλα ένα παιχνίδι αριθμών, δεν αποτυγχάνει – αλλά ούτε είναι φτηνό.
Αύξηση του Όγκου των Υποβολών
Ο όγκος των εργασιών, σε όλες τις χώρες προέλευσης, έχει φανερά αυξηθεί το 2024.
Η πιο δημοφιλή ημέρα δημοσίευσης μεταβάλλεται καθ’ όλη τη διάρκεια του έτους· αυτή τη στιγμή είναι η Τρίτη, όταν ο αριθμός των υποβολών στην ενότητα Υπολογιστική Όραση και Αναγνώριση Προτύπων είναι συχνά γύρω στα 300-350 σε μια seule ημέρα, στις “πικρές” περιόδους (Μάιος-Αύγουστος και Οκτώβριος-Δεκέμβριος, δηλαδή, περίοδος συνεδρίου και “ετήσια περίοδοςquotas”, αντίστοιχα).
Πέρα από την προσωπική μου εμπειρία, το Arxiv αναφέρει ένα ρεκόρ υποβολών τον Οκτώβριο του 2024, με 6000 νέες συνολικές υποβολές, και η ενότητα Υπολογιστική Όραση είναι η δεύτερη πιο υποβεβλημένη ενότητα μετά τη Μηχανική Μάθηση.
Ωστόσο, поскольку η ενότητα Μηχανική Μάθηση στο Arxiv χρησιμοποιείται συχνά ως “πρόσθετη” ή συναγμένη υπερ-κατηγορία, αυτό υποδηλώνει ότι η Υπολογιστική Όραση και Αναγνώριση Προτύπων είναι στην πραγματικότητα η πιο υποβεβλημένη κατηγορία του Arxiv.
Τα στατιστικά του ιδιών του Arxiv απεικονίζουν σαφώς την επιστήμη των υπολογιστών ως τον σαφή ηγέτη στις υποβολές:

Επιστήμη των υπολογιστών (CS) κυριαρχεί στα στατιστικά υποβολών του Arxiv τα τελευταία πέντε χρόνια. Source: https://info.arxiv.org/about/reports/submission_category_by_year.html
Το 2024 AI Index του Πανεπιστημίου του Στάνφορντ, αν και δεν μπορεί να αναφέρει τις πιο πρόσφατες στατιστικές ακόμη, επίσης τονίζει την αξιοσημείωτη αύξηση στις υποβολές ακαδημαϊκών εργασιών γύρω από τη μηχανική μάθηση τα τελευταία χρόνια:

Με τα στοιχεία να μην είναι διαθέσιμα για το 2024, η αναφορά του Στάνφορντ δείχνει δραματικά την αύξηση του όγκου των υποβολών για εργασίες μηχανικής μάθησης. Source: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024_Chapter1.pdf
Η Διασπορά > Πλέγμα Πλαίσια Πroliferate
Μια άλλη σαφής τάση που εμφανίστηκε για μένα ήταν μια μεγάλη αύξηση των εργασιών που ασχολούνται με τη χρήση Λατινικών Διασποράς Μοντέλων (LDMs) ως γεννητριών μοντέλων πλέγματος, “παραδοσιακών” CGI.
Παραδείγματα τέτοιων έργων περιλαμβάνουν το InstantMesh3D της Tencent, 3Dtopia, Diffusion2, V3D, MVEdit, και GIMDiffusion, μεταξύ πολλών άλλων.

Γέννηση και βελτίωση πλέγματος μέσω διαδικασίας διασποράς στο 3Dtopia. Source: https://arxiv.org/pdf/2403.02234
Αυτή η αναδυόμενη ερευνητική κατεύθυνση θα μπορούσε να θεωρηθεί ως μια σιωπηλή παραίτηση από την συνεχιζόμενη αδιαπέραστη των γεννητικών συστημάτων όπως τα μοντέλα διασποράς, τα οποία πριν από δύο χρόνια θεωρούνταν ως πιθανή αντικατάσταση όλων των συστημάτων που τα μοντέλα διασποράς > πλέγματος επιδιώκουν τώρα να πληρώσουν; αναθέτοντας τη διασπορά στο ρόλο eines εργαλείου σε τεχνολογίες και ροές εργασίας που χρονολογούνται τριάντα ή περισσότερα χρόνια.
Η Stability.ai, οι δημιουργοί του ανοικτού κώδικα Stable Diffusion μοντέλου, έχουν gerade κυκλοφορήσει Stable Zero123, το οποίο μπορεί, μεταξύ άλλων, να χρησιμοποιήσει μια Νευρωνική Πεδία Ραδιότητας (NeRF) ερμηνεία μιας AI-γεννημένης εικόνας ως γέφυρα για τη δημιουργία ενός ρητού, πλέγματος-βασισμένου CGI μοντέλου που μπορεί να χρησιμοποιηθεί σε CGI πεδία όπως Unity, σε βιντεοπαιχνίδια, εικονική πραγματικότητα και σε άλλα πεδία που απαιτούν ρητές 3D συντεταγμένες, αντί για τις ضمنικές (κρυφές) συντεταγμένες των συνεχών συναρτήσεων.
Πατήστε για αναπαραγωγή. Εικόνες που γεννιούνται στη Stable Diffusion μπορούν να μετατραπούν σε λογικά CGI πλέγματα. Εδώ βλέπουμε το αποτέλεσμα μιας διαδικασίας εικόνας-προς-CGI χρησιμοποιώντας το Stable Zero 123. Source: https://www.youtube.com/watch?v=RxsssDD48Xc
3D Σημασιολογία
Ο χώρος της γενετικής AI κάνει μια διάκριση μεταξύ 2D και 3D υλοποιήσεων της όρασης και των γεννητικών συστημάτων. Για παράδειγμα, πλαίσια αναγνώρισης προσώπου, αν και παραστατικά 3D αντικειμένων (προσώπων) σε όλες τις περιπτώσεις, δεν υπολογίζουν πάντα διευθυνσιμές 3D συντεταγμένων.
Το δημοφιλές FANAlign σύστημα, που χρησιμοποιείται ευρέως σε αρχιτεκτονικές deepfake του 2017 (μεταξύ άλλων), μπορεί να εξυπηρετήσει και τις δύο προσεγγίσεις:

Πάνω, 2D ορόσημα παράγονται με βάση τα αναγνωρισμένα χαρακτηριστικά και γραμμές του προσώπου. Κάτω, ορίζονται σε 3D X/Y/Z χώρο. Source: https://github.com/1adrianb/face-alignment
Έτσι, όπως το “deepfake” έχει γίνει ένα αμφίβολο και καταχρασμένο όρο, το “3D” έχει επίσης γίνει ένας συναρπαστικός όρος στην έρευνα υπολογιστικής όρασης.
Για τους καταναλωτές, έχει συνήθως σημαίνει στερεο-ενεργοποιημένα μέσα (όπως ταινίες όπου ο θεατής πρέπει να φορέσει ειδικά γυαλιά); για τους επαγγελματίες οπτικών εφέ και μοντελιστές, παρέχει τη διάκριση μεταξύ 2D έργων τέχνης (όπως концептуαλιστικών σκετς) και μοντέλων πλέγματος που μπορούν να χειριστούν σε ένα “3D πρόγραμμα” όπως το Maya ή το Cinema4D.
Αλλά στην υπολογιστική όραση, απλώς σημαίνει ότι ένα Καρτεσιανό σύστημα συντεταγμένων υπάρχει κάπου στο λατινικό χώρο του μοντέλου – όχι ότι μπορεί να απευθυνθεί ή να χειριστεί άμεσα από τον χρήστη; τουλάχιστον, όχι χωρίς τρίτους ερμηνευτές CGI-βασισμένων συστημάτων όπως 3DMM ή FLAME.
Επομένως, η έννοια της διασποράς>3D είναι ασαφής; όχι μόνο μπορεί οποιοδήποτε είδος εικόνας (συμπεριλαμβανομένης μιας πραγματικής φωτογραφίας) να χρησιμοποιηθεί ως είσοδος για να παράγει ένα γεννητικό CGI μοντέλο, αλλά ο λιγότερο αμφίβολος όρος ‘πλέγμα’ είναι πιο κατάλληλος.
Ωστόσο, για να επιδεινώσει την αμφιβολία, η διασπορά είναι απαραίτητη για να ερμηνεύσει την πηγή φωτογραφία σε ένα πλέγμα, στην πλειοψηφία των αναδυόμενων έργων. Έτσι, μια καλύτερη περιγραφή θα μπορούσε να είναι εικόνα-προς-πλέγμα, ενώ εικόνα>διασπορά>πλέγμα είναι μια ακόμα πιο ακριβής περιγραφή.
Αλλά αυτό είναι ένα δύσκολο πωλητή σε μια συνεδρίαση του διοικητικού συμβουλίου, ή σε μια δημοσιότητα που σχεδιαστεί για να εμπλακήσει επενδυτές.
Αποδεικτικά στοιχεία Αρχιτεκτονικών Αδιεξόδων
Ακόμη και σε σύγκριση με το 2023, η τελευταία σοδειά των εργασιών παρουσιάζει μια αυξανόμενη απόγνωση γύρω από την αφαίρεση των σκληρών πρακτικών ορίων στις διασπορικές γεννητικές συστήματα.
Το κλειδί εμπόδιο παραμένει η γέννηση ναρατίων και χρονικά συνεπών βίντεο, και η διατήρηση μιας συνεπής εμφάνισης χαρακτήρων και αντικειμένων – όχι μόνο σε διαφορετικά βίντεο, αλλά ακόμη και κατά τη διάρκεια της σύντομης διάρκειας ενός seul γεννημένου βίντεο.
Η τελευταία επωφελής καινοτομία στις διασπορικές συνθετικές συστήματα ήταν η έλευση του LoRA το 2022. Αν και νεότερα συστήματα όπως το Flux έχουν βελτιώσει κάποια από τα προβλήματα των εκτός-ορίων, όπως η προηγούμενη αδυναμία του Stable Diffusion να αναπαράγει περιεχόμενο κειμένου μέσα σε μια γεννημένη εικόνα, και η συνολική ποιότητα εικόνας έχει βελτιωθεί, η πλειοψηφία των εργασιών που μελετήθηκα το 2024 ήταν ουσιαστικά απλώς μετακινήσεις του φαγητού στο πιάτο.
Αυτά τα αδιέξοδα έχουν συμβεί trước, με τις Γεννητικές Ανταγωνιστικές Δίκτυα (GANs) και με τα Νευρωνικά Πεδία Ραδιότητας (NeRF), τα οποία και τα δύο απέτυχαν να ανταποκριθούν στις αρχικές προοπτικές τους – και τα οποία χρησιμοποιούνται όλο και περισσότερο σε συμβατικά συστήματα (όπως η χρήση του NeRF στο Stable Zero 123, παραπάνω). Αυτό φαίνεται να συμβαίνει και με τα μοντέλα διασποράς.
Ερευνά το Gaussian Splatting
Φαινόταν ότι το τέλος του 2023 ότι η μέθοδος rasterization 3D Gaussian Splatting (3DGS), η οποία έκανε το ντεμπούτο της ως ιατρική απεικόνιση τεχνική στις αρχές της δεκαετίας του ’90, ήταν έτοιμη να ξεπεράσει αυτο-κωδικοποιητές συστήματα ανθρώπινης σύνθεσης προκλήσεων (όπως προσομοίωση και αναπαράσταση προσώπου, καθώς και μεταφορά ταυτότητας).
Το χαρτί ASH του 2023 υποσχόταν πλήρους σώματος 3DGS ανθρώπους, ενώ Gaussian Avatars προσέφερε σημαντικά βελτιωμένα λεπτομέρειες (σε σύγκριση με αυτο-κωδικοποιητές και άλλα ανταγωνιστικά συστήματα), μαζί με εντυπωσιακές cross-reenactment.
Φέτος, ωστόσο, ήταν σχετικά λίγο σε τέτοιες στιγμές przełomu για την 3DGS ανθρώπινη σύνθεση; οι περισσότερες εργασίες που αντιμετώπισαν το πρόβλημα ήταν είτε παραγόμενα από τις ανωτέρω εργασίες, είτε δεν κατάφεραν να ξεπεράσουν τις ικανότητές τους.
Αντίθετα, η έμφαση στην 3DGS έχει τεθεί στην βελτίωση της θεμελιώδους αρχιτεκτονικής της εφικτότητας, οδηγώντας σε μια ραβδιά εργασιών που προσφέρουν βελτιωμένα 3DGS εξωτερικά περιβάλλοντα. Ιδιαίτερη προσοχή έχει δοθεί στις προσεγγίσεις Simultaneous Localization and Mapping (SLAM) 3DGS, σε έργα όπως Gaussian Splatting SLAM, Splat-SLAM, Gaussian-SLAM, DROID-Splat, μεταξύ πολλών άλλων.
Αυτά τα έργα που προσπάθησαν να συνεχίσουν ή να επεκτείνουν την σύνθεση ανθρώπων με βάση το splatting περιλαμβάνουν MIGS, GEM, EVA, OccFusion, FAGhead, HumanSplat, GGHead, HGM, και Topo4D. Αν και υπάρχουν άλλα εκτός από αυτά, καμία από αυτές τις εξόδους δεν έφτασε στο αρχικό αντίκτυπο των εργασιών που εμφανίστηκαν στα τέλη του 2023.
Η ‘Εποχή Weinstein’ των Δειγμάτων είναι σε (Αργή) Παρακμή
Ερευνά από τη νοτιοανατολική Ασία γενικά (και την Κίνα ειδικότερα) συχνά περιλαμβάνει δείγματα που είναι προβληματικά να αναπαράγουν σε ένα άρθρο ανασκόπησης, επειδή περιλαμβάνουν υλικό που είναι λίγο ‘πικάντικο’.
Εάν αυτό είναι επειδή οι ερευνητές στην περιοχή αυτή του κόσμου επιδιώκουν να προσελκύσουν την προσοχή για την έξοδό τους είναι ανοιχτό για συζήτηση; αλλά για τα τελευταία 18 μήνες, ένας αυξανόμενος αριθμός εργασιών γύρω από τη γενετική AI (εικόνα και/ή βίντεο) έχουν προεπιλέξει να χρησιμοποιούν νέες και ελαφρά ντυμένες γυναίκες και κορίτσια στα παραδείγματα του έργου.
Αυτή η τάση ακολουθεί τις γενικές τάσεις των subreddit και άλλων κοινοτήτων που έχουν συγκεντρωθεί γύρω από τα Μοντέλα Διασποράς (LDMs), όπου η κανόνας 34 παραμένει πολύ σε ισχύ.
Διένεξη Προσώπου
Τέτοιου είδους ακατάλληλο παράδειγμα перекρывается με την αυξανόμενη αναγνώριση ότι τα AI διαδικασίες δεν πρέπει να εκμεταλλεύονται αυθαίρετα την ομοιότητα διασημοτήτων – ιδιαίτερα σε μελέτες που χρησιμοποιούν αδιακρίτως παραδείγματα παραδείγματα που απεικονίζουν διασημότητες, συχνά γυναίκες, και τις τοποθετούν σε αμφισβητούμενους контексты.
Ένα παράδειγμα είναι AnyDressing, το οποίο, εκτός από το γεγονός ότι απεικονίζει πολύ νέες anime-στυλ γυναίκες, χρησιμοποιεί επίσης ελευθέρως τις ταυτότητες κλασικών διασημοτήτων όπως η Marilyn Monroe, και τρέχουσες όπως η Ann Hathaway (η οποία έχει καταδικάσει αυτή τη χρήση πολύ φωνητικά).

Αυθαίρετη χρήση τρέχουσων και ‘κλασικών’ διασημοτήτων είναι ακόμη khá συχνή σε εργασίες από τη νοτιοανατολική Ασία, αν και η πρακτική αυτή είναι ελαφρώς σε παρακμή. Source: https://crayon-shinchan.github.io/AnyDressing/
Στις δυτικές εργασίες, αυτή η συγκεκριμένη πρακτική έχει μειωθεί σημαντικά καθ’ όλη τη διάρκεια του 2024, με την ηγεσία των μεγαλύτερων κυκλοφοριών από FAANG και άλλα υψηλά ερευνητικά σώματα όπως το OpenAI. Κριτικά συνειδητοί του potencial για μελλοντική δίκη, αυτοί οι μεγάλοι εταιρικοί παίκτες φαίνεται ότι είναι όλο και περισσότερο απρόθυμοι να αναπαραστήσουν ακόμη και πραγματικά φωτορεαλιστικά άτομα.
Αν και τα συστήματα που δημιουργούν (όπως Imagen και Veo2) είναι明显 capable να παράγουν τέτοιο αποτέλεσμα, τα παραδείγματα από δυτικές γενετικές AI έργα τώρα προτιμούν ‘γλυκά’, Disneyfied και εξαιρετικά ‘ασφαλή’ εικόνες και βίντεο.

Παρά το γεγονός ότι η Imagen έχει την ικανότητα να δημιουργήσει ‘φωτορεαλιστικά’ αποτελέσματα, τα δείγματα που προωθούνται από την έρευνα του Google είναι τυπικά φανταστικά, ‘οικογενειακά’ προϊόντα – φωτορεαλιστικά ανθρώπινα είναι προσεκτικά αποφευγμένα, ή ελάχιστα παραδείγματα παρέχονται. Source: https://imagen.research.google/
Πρόσωπο-Πλύσιμο
Στη δυτική CV βιβλιογραφία, αυτή η δολία προσέγγιση είναι ιδιαίτερα εμφανής για προσωποποίηση συστήματα – μεθόδους που είναι ικανές να δημιουργούν συνεπείς ομοιότητες ενός συγκεκριμένου ατόμου σε πολλαπλά παραδείγματα (δηλαδή, όπως LoRA και η παλαιότερη DreamBooth).
Παραδείγματα περιλαμβάνουν ορθογώνια οπτική ενσωμάτωση, LoRA-Composer, το InstructBooth της Google, και πολλά άλλα.

Το InstructBooth της Google αυξάνει τον παράγοντα γλυκύτητας στο 11, αν και η ιστορία δείχνει ότι οι χρήστες είναι περισσότερο ενδιαφερόμενοι για τη δημιουργία φωτορεαλιστικών ανθρώπων παρά για γλυκά ή φλουφάχαρακτέρ. Source: https://sites.google.com/view/instructbooth
Ωστόσο, η άνοδος του ‘γλυκού παραδείγματος’ είναι εμφανής σε άλλες CV και σύνθεσης ερευνητικές κατευθύνσεις, σε έργα όπως Comp4D, V3D, DesignEdit, UniEdit, FaceChain (η οποία παραδέχεται σε πιο ρεαλιστικές προσδοκίες του χρήστη στη σελίδα του GitHub), και DPG-T2I, μεταξύ πολλών άλλων.
Η εύκολη δημιουργία τέτοιων συστημάτων (όπως LoRAs) από χρήστες με σχετικά скромní υλικό έχει οδηγήσει σε μια έκρηξη των ελεύθερα κατεβάσιμων διασημοτήτων μοντέλων στον τομέα civit.ai και κοινότητα. Τέτοια παράνομη χρήση παραμένει δυνατή μέσω της ανοικτής πηγής αρχιτεκτονικών όπως Stable Diffusion και Flux.
Αν και είναι συχνά δυνατό να διαπεράσουν τις λειτουργίες ασφαλείας των γενετικών text-to-image (T2I) και text-to-video (T2V) συστημάτων για να παράγουν υλικό απαγορευμένο από τους όρους χρήσης μιας πλατφόρμας, ο χάσμα μεταξύ των περιορισμένων ικανοτήτων των καλύτερων συστημάτων (όπως RunwayML και Sora), και των απεριόριστων ικανοτήτων των λιγότερο αποτελεσματικών συστημάτων (όπως Stable Video Diffusion, CogVideo και τοπικές αναπτύξεις του Hunyuan), δεν κλείνει πραγματικά, όπως πολλοί πιστεύουν.
Αντίθετα, αυτά τα ιδιόκτητα και ανοικτά συστήματα, αντίστοιχα, απειλούν να γίνουν εξίσου άχρηστα: ακριβά και υπερκλίμακα T2V συστήματα μπορεί να γίνουν υπερβολικά περιορισμένα λόγω φόβων για δίκη, ενώ η έλλειψη υποδομής αδειοδότησης και εποπτείας σε ανοικτά συστήματα μπορεί να τα κλείσει完全 από την αγορά καθώς πιο αυστηρές κανονιστικές αρχές θα εφαρμοστούν.
Πρώτη δημοσίευση την Τρίτη, 24 Δεκεμβρίου 2024












