Συνδεθείτε μαζί μας

Μια προσωπική αντίληψη για τις τάσεις της λογοτεχνίας του Computer Vision το 2025

Η γωνία του Άντερσον

Μια προσωπική αντίληψη για τις τάσεις της λογοτεχνίας του Computer Vision το 2025

mm
Εικόνα που δημιουργήθηκε από τεχνητή νοημοσύνη, από τον gpt-image-1 μέσω του ChatGPT-5.2, με μια στυλιζαρισμένη ισομετρική απεικόνιση επιστημόνων με λευκή ρόμπα σε ένα εργαστήριο υπολογιστών.

Οι ηθικές γνωστοποιήσεις και η Gaussian Splatting βρίσκονται σε φθίνουσα πορεία, ενώ ο τεράστιος όγκος των υποβληθεισών εργασιών αντιπροσωπεύει ένα νέο πρόβλημα που πρέπει να αντιμετωπίσει η Τεχνητή Νοημοσύνη το 2026.

 

Γνώμη Παρακολουθώ την έρευνα για την υπολογιστική όραση και τη σύνθεση εικόνας στο arXiv και σε σχετικούς χώρους για περίπου επτά χρόνια, σε διάφορα μέσα - αρκετό καιρό για να διακρίνω επαναλαμβανόμενα μοτίβα και μεταβολές στις τάσεις. Αλλά αυτές οι παρατηρήσεις είναι ανεπίσημες. Ειλικρινά, εύχομαι να είχα τον χρόνο να εκμεταλλευτώ το τεράστιο σώμα συνεχώς αυξανόμενων δεδομένων που αντιπροσωπεύεται μόνο από τη ροή δημοσιεύσεων του Arxiv, η οποία είναι σίγουρα πλούσια σε κρυφές γνώσεις, χρησιμοποιώντας ανάλυση μηχανικής μάθησης. Όπως έχουν τα πράγματα, μπορώ μόνο να αναφέρω πιο πρόχειρα ό,τι έπεσε στην αντίληψή μου. από την τελευταία φορά που το σκέφτηκα το θέμα.

Ένταση ήχου στα 11

Πολλές από τις τάσεις στις υποβολές ερευνητικών εργασιών για την Τεχνητή Νοημοσύνη που παρατήρησα το 2024 καθιερώθηκαν ως σταθερές το 2025. Μία από αυτές δεν είναι η αμείλικτη και συνεχής αύξηση των τόμος των εργασιών που σχετίζονται με την Τεχνητή Νοημοσύνη, η οποία τροφοδοτείται από την Τεχνητή Νοημοσύνη, σε σημείο που μια αντιληπτή κρίση:

Μηνιαίες υποβολές στο Arxiv για την επιστήμη των υπολογιστών, Οκτώβριος 2023-Νοέμβριος 2025, με επικάλυψη του κυλιόμενου μέσου όρου 3 μηνών. Πηγή: https://arxiv.org/stats/monthly_submissions

Μηνιαίες υποβολές στο Arxiv για την επιστήμη των υπολογιστών, Οκτώβριος 2023-Νοέμβριος 2025, με επικάλυψη του κυλιόμενου μέσου όρου 3 μηνών. Πηγή

Αυτός ο ρυθμός ανάπτυξης χαρακτηρίστηκε ως εκθετικός διπλασιασμός του όγκου των υποβολών εργασιών τεχνητής νοημοσύνης, πριν από αρκετά χρόνια, και έχει αποκτήσει μεγαλύτερη επιρροή μόνο με την πρόσφατη έλευση του Μανία επενδύσεων στην τεχνητή νοημοσύνη έχει αυξήσει τα διακυβεύματα, καθώς και το ποσό της διαθέσιμης χρηματοδότησης για έρευνα που σχετίζεται με την Τεχνητή Νοημοσύνη.

Τα πλήρη στατιστικά στοιχεία για το 2025 δεν είναι ακόμη διαθέσιμα και τα συγκεντρωτικά στατιστικά στοιχεία που εμφανίζονται παραπάνω αντιπροσωπεύουν τους γενικούς αριθμούς που αυξάνονται σε όλες τις κατηγορίες. Παρακάτω μπορούμε να δούμε ότι η επιστήμη των υπολογιστών συνεχίζει να ακολουθεί μια κυρίαρχη τάση, σημαντικά πάνω από τους σταθερούς συναδέλφους της:

Αύξηση στις υποβολές CS 2022-2025. Πηγή - https://info.arxiv.org/about/reports/submission_category_by_year.html

Αύξηση στις υποβολές CS 2022-2025. Πηγή

Ταξινόμηση των άχρηστων αντικειμένων

Τον Οκτώβριο, η έναρξη της φθινοπωρινής περιόδου συνεδρίων, η οποία πάντα φέρνει μια πλημμύρα νέας έρευνας, έφερε αντ' αυτού ένα Όγκος υποβολών σε επίπεδο επίθεσης DOS, δίνοντας πρόσθετη ώθηση και επείγοντα χαρακτήρα στο μέχρι τώρα υπο-προγραμματισμένο ερευνητικό σκέλος του ανάλυση ερευνητικών τάσεωνΜε άλλα λόγια, εμφανίζονται ολοένα και περισσότερο άρθρα και αποθετήρια που, από μόνα τους, επιδιώκουν να μειώσουν την επιδείνωση της αναλογίας σήματος προς θόρυβο στον ερευνητικό χώρο.

Το τελευταίο ήρθε μόλις την περασμένη εβδομάδα, με τη μορφή Κατάταξη καινοτομίας, έναν χαρτί και Αποθετήριο GitHub το οποίο βελτιώνει τα LLM όπως Qwen3-4B-Instruct-2507 και SciBERT ώστε να μπορούν να εκτελέσουν δυαδική ταξινόμηση των υποβληθεισών εργασιών (προβλέποντας την «καινοτομία» από προηγούμενες υποβολές) ή αλλιώς σύγκριση καινοτομίας ανά ζεύγη (συγκρίνοντας τις τρέχουσες υποβολές για «καινοτομία»):

Το σύστημα NoveltyRank συγκρίνει τον τίτλο και την περίληψη μιας υποβολής με παρόμοιες προηγούμενες εργασίες, συνοψίζει τις διαφορές χρησιμοποιώντας ένα LLM και τις μεταβιβάζει σε ένα βελτιωμένο μοντέλο Qwen3-4B που αποφασίζει εάν η εργασία θεωρείται «εννοιολογικά νέα». Πηγή - https://arxiv.org/pdf/2512.14738

Το σύστημα NoveltyRank συγκρίνει τον τίτλο και την περίληψη μιας υποβολής με παρόμοιες προηγούμενες εργασίες, συνοψίζει τις διαφορές χρησιμοποιώντας ένα LLM και τις μεταβιβάζει σε ένα βελτιωμένο μοντέλο Qwen3-4B που αποφασίζει εάν η εργασία θεωρείται «εννοιολογικά νέα». Πηγή

Το πρόβλημα με τέτοιες προσεγγίσεις «κοσκίνισης» είναι η πρόκληση της ορισμός σημαντικών μεταβλητώνΗ προσέγγιση NoveltyRank χρησιμοποιεί την αποδοχή μιας εργασίας στο συνέδριο ως δείκτη καινοτομίας και - ίσως μάλλον υποτιμητικά - χρησιμοποιεί τη δημοσίευση Arxiv ως δείκτη υποβάθρου αρνητικός καινοτομία.

Αυτό προϋποθέτει δύο λανθασμένες προϋποθέσεις: πρώτον, ότι όλες οι υποβολές που γίνονται δεκτές από συνέδρια είναι καινοτόμες ή σημαντικές, κάτι που προφανώς δεν ισχύει· και δεύτερον, ότι η ίδια η καινοτομία έχει ανεπιφύλακτη αξία. Όποιος έχει σπαταλήσει μισή ώρα σε μερικές από τις πλαστές, ακόμη και γελοίες εργασίες που υποβλήθηκαν - ίσως - αποκλειστικά για να διατηρήσει ποσοστώσεις «δημοσίευσης ή καταστροφής», θα γνωρίζουν ότι η καινοτομία είναι συχνά ασήμαντη και η σταδιακή εργασία συχνά σημαντική.

Η κατανόηση της αξίας μιας νέας εργασίας περιλαμβάνει έναν τομέα στον οποίο η Τεχνητή Νοημοσύνη βρίσκεται αυτή τη στιγμή. πολύ αδύναμο – μακροπρόθεσμα συμφραζόμεναΛόγω του συχνά ανειλικρινούς τρόπου με τον οποίο γράφονται, οι εργασίες που φαίνεται να σημειώνουν πρωτοπορία μπορούν πολύ συχνά να αποκαλυφθούν ως μικρές πρόοδοι σε υπάρχουσες εργασίες. Ωστόσο, τα αυτοματοποιημένα συστήματα θα πρέπει να αναπτύξουν μια «διαίσθηση» για τέτοιες περιπτώσεις, χωρίς να επισημαίνουν πολλαπλά ψευδώς θετικά αποτελέσματα και χωρίς να βασίζονται στην ειλικρίνεια των συγγραφέων που τις υποβάλλουν.

Ηθική Βουτιά

Οπως έχω παρατηρήθηκε πριν, πύλες όπως το Arxiv είναι αρκετά ανθεκτικές σε laissez faire scraping, και τα data dumps που παρέχουν συχνά δεν έχουν λεπτομερή ανάλυση.

Επομένως, ακόμη και αν είχα τους πόρους και τον χρόνο να κατεβάσω και να εξαγάγω χαρακτηριστικά από μια επαρκώς αντιπροσωπευτική διατομή εργασιών πληροφορικής, πολλές από τις πιο ανεπαίσθητες τάσεις δεν θα είχαν στοχευτεί ή αναλυθεί.

Ένα από αυτά είναι η παρουσία ή η απουσία κώδικες δεοντολογικών δηλώσεων; μακρύς ένας υποχρεωτική συμπερίληψη Για τις βιολογικές επιστήμες που άπτονται των πειραμάτων σε ζώα, το 2024 είδε το απόγειο της τάσης προς τον ηθικό χαρακτηρισμό μιας προτεινόμενης εργασίας, στο τέλος των υποβληθεισών εργασιών στην κατηγορία Επιστήμη Υπολογιστών.

Ανεκδοτολογικά, λέω ότι αυτή η πρακτική έχει καταρρεύσει καθ' όλη τη διάρκεια του 2025. Υποθέτω ότι οι ένθερμες προσπάθειες απορρύθμισης της σημερινής κυβέρνησης των ΗΠΑ, σε σχέση με την ανάπτυξη της Τεχνητής Νοημοσύνης, έχουν δώσει στην ερευνητική κοινότητα, τόσο στις Ηνωμένες Πολιτείες όσο και στο εξωτερικό, μια ορισμένη αυξημένη άδεια και μια αίσθηση έμμεσης προστασίας από νομική έκθεση.

Παρά το γεγονός ότι υποστήριξη Για την καταπολέμηση των deepfake ρυθμίσεων, η τρέχουσα κυβέρνηση των ΗΠΑ έχει ουσιαστικά αποκαταστήσει μεγάλο μέρος της στάσης της «άγριας Δύσης» που χαρακτήριζε την εποχή 2021-23 - παρόλο που το πλαίσιο της καθαρά επιστημονικής έρευνας που την όριζε έχει έκτοτε εξελιχθεί σε ένθερμα, ακόμη και ιστορικά επίπεδα επενδύσεων.

Γενετικά βίντεο ως «Τεχνητή Νοημοσύνη»

Με την έναρξη του Hunyuan Video και WAN σειράς δημιουργικών βίντεο τον περασμένο χειμώνα, το βίντεο με τεχνητή νοημοσύνη έχει μεταμορφωθεί πλήρως το 2025. Παλιά εμπόδια όπως το δυσκολία δημιουργίας ολοκληρωμένων avatars σωματικής διάπλασης, ή του απόκτηση πειστικών προβολών προφίλ ενός ατόμου, παρασύρθηκαν προφανώς εν μία νυκτί.

Οι κυκλοφορίες αυτού του είδους με άφθονα βάρη από την Κίνα έχουν, αμφισβητήσιμα, έθεσαν τον ρυθμό για τις κυκλοφορίες δημιουργικών βίντεο φέτος και αποτελούν τουλάχιστον μια αντίρροπη πίεση στην τάση των δυτικών αρχιτεκτονικών βίντεο τεχνητής νοημοσύνης να είναι πολύ πιο λογοκριμένες, προ-εμπορευματοποιημένες και προδιαγεγραμμένες.

The απουσία τάφρου σε αυτή την ειρωνικά δημοκρατική σκηνή υπό την ηγεσία του CCCP έχει οδηγήσει εκατοντάδες, αν όχι χιλιάδες, εταιρείες που επιδιώκουν να εκμεταλλευτούν την αναδυόμενη αγορά για συμπεράσματα προσφέροντας φιλικές προς το χρήστη πύλες, με παίκτες τόσο διαφορετικούς όσο civit.ai και RunPod επωφελούμενοι από διαδικασίες και τεχνολογίες που, σε πολλές περιπτώσεις, θα μπορούσαν να εκτελούνται σε οικιακούς υπολογιστές.

Γενικά, αυτές οι πρωτοβουλίες είναι βραχυπρόθεσμες αρπαγές μετρητών που αναμένεται να καταργηθούν από την τελική ενοποίηση της αγοράς (αν και, αναμφίβολα, οι ιδρυτές τους δεν θα είχαν αντίρρηση να σκοντάψουν κατά λάθος σε ένα κυρίαρχο μερίδιο αγοράς, εάν αυτό συνέβαινε).

Αυτή η ίδια πεζότητα και αναπαραγωγή έχει πλήξει το δημιουργικό σκέλος βίντεο στις υποβολές του Arxiv το 2025. Όπως εγώ παρατηρήθηκε την περασμένη εβδομάδα, ο λόγος σήματος προς θόρυβο για αυτήν την κατηγορία έχει φτάσει σε ένα τρομερό αποκορύφωμα, καθώς οι ερευνητές ανταγωνίζονται δημόσια για τα τεράστια ποσά πιθανής χρηματοδότησης που αναμφίβολα έχουν αποδεσμεύσει οι φετινές ανακαλύψεις.

Ωστόσο, η συντριπτική πλειοψηφία των υποβολών αυτού του είδους είναι στην καλύτερη περίπτωση απλές σταδιακές πρόοδοι. Τα βασικά προβλήματα που παραμένουν στην παραγωγική τεχνητή νοημοσύνη δεν έχουν εμφανιστεί πολύ φέτος: η ανάγκη να διατηρώ την ταυτότητά μου, Στυλ LoRA, σε όλη την απεικόνιση ενός χαρακτήρα· η ανάγκη για μεγαλύτερους χρόνους εκτέλεσης για τα βίντεο εξόδου, με διατήρηση της συνολικής συνέπειας (δηλαδή, των περιβαλλόντων και των θεμάτων κ.λπ., όχι μόνο του ID)· και για βελτιωμένη παραγωγή ήχου και χειραγώγηση εντός αρχιτεκτονικών δημιουργικού βίντεο και επεξεργασίας βίντεο· μεταξύ άλλων.

Ο πυρετός του πλέγματος μειώνεται

Παρατήρησα πέρυσι ότι ο χώρος βιώνει μια αξιοσημείωτη αύξηση στις δημοσιεύσεις που προωθούν συστήματα που αξιοποιούν τα παραδοσιακά CGI (δηλαδή, αναπαραστάσεις που βασίζονται σε πλέγμα του είδους που χρονολογείται από τη δεκαετία του 1970), ή ενσωματώστε το σε νευρωνικά πλαίσιαΈχω παρατηρήσει μια σημαντική μείωση της ώθησης προς λύσεις που βασίζονται σε πλέγμα, ιδιαίτερα κατά το δεύτερο εξάμηνο του έτους, σε σχέση με το 2025.

Πολλές από τις λύσεις που ενσωματώθηκαν στο CGI σε αυτό το προηγούμενο κύμα εργασιών, ειδικά εκείνες που ασχολούνταν με παραμετρικά ανθρώπινα στοιχεία «ελέγχου», όπως Τρισδιάστατα μορφοποιήσιμα μοντέλα, μπορεί να έχει αντικατασταθεί από τις νέες δυνατότητες των γενετικών πλαισίων που βασίζονται στη διάχυση, όπως τα Veo, Kling, Hunyuan και WAN, μεταξύ πολλών άλλων.

Ταυτόχρονα, δημοσιεύματα που ασχολούνται με Γκαουσιανή πλάκα Οι προσεγγίσεις αυτές έχουν επίσης προφανώς επηρεαστεί είτε από αναπτυξιακή στασιμότητα είτε λόγω της επισκίασής τους από τα συστήματα τεχνητής νοημοσύνης γενιάς που βασίζονται στη διάχυση του 2025· ή και τα δύο.

Πριν από ένα χρόνο παρατήρησα ότι ο αρχικός ενθουσιασμός του GSplat, που έκανε ένα αξιοσημείωτη εντύπωση στα τέλη του 2023, είχε υποχωρήσει σε στενότερους τομείς έρευνας. Φέτος, βλέπω μια ροή εργασιών που στοχεύουν στην αντιμετώπιση των σημαντικών απαιτήσεων πόρων αυτής της προσέγγισης, μεταξύ άλλων προβλημάτων.

Αν και θα χαρακτήριζα την Gaussian Splatting ως «προς το παρόν σε στασιμότητα», θα πρέπει να θυμόμαστε ότι αυτή η τεχνολογία χρονολογείται από τις αρχές της δεκαετίας του 1990 και είναι εκ φύσεως επαναλαμβανόμενη.

Μια εξαίρεση σε αυτή τη γενική υποχώρηση από τις προσεγγίσεις που βασίζονται στο πλέγμα είναι η εμφανής αύξηση του ενδιαφέροντος για την ενσωμάτωση της Τεχνητής Νοημοσύνης σε πλαίσια που στοχεύουν στην τρισδιάστατη εκτύπωση.

Μείωση στις Υποβολές Ασφάλειας Τεχνητής Νοημοσύνης

Η τελική μου παρατήρηση για το 2025 είναι ότι η κατηγορία υποβολών «Ασφάλεια» στην ενότητα Επιστήμη Υπολογιστών στο Arxiv έχει παρουσιάσει αξιοσημείωτη πτώση στη συχνότητα και την ποιότητα το 2025 και δεν είναι εύκολο να μαντέψει κανείς γιατί.

The Κρυπτογραφία και Ασφάλεια Το αρχείο ήταν αναμφισβήτητα ανέκαθεν ένα δεύτερης κατηγορίας μέρος για την ανάρτηση εργασιών, καθώς αυτό το σκέλος της έρευνας κυριαρχείται, όπως ήταν αναμενόμενο, από την ιδιόκτητη πνευματική ιδιοκτησία του ιδιωτικού τομέα - ελάχιστα από τα οποία εμφανίζονται σε ακαδημαϊκά περιοδικά και σχεδόν κανένα από αυτά δεν εμφανίζεται σε δωρεάν πλατφόρμες όπως το Arxiv.

Επιπλέον, οι υποβολές σε αυτήν την κατηγορία στο Arxiv έχουν υψηλότερο από τον μέσο όρο αριθμό «αποτυχιών» - υποτιμημένες παραδοχές, συχνά θαμμένες σε απροσδόκητα σημεία, που αναιρούν ή μειώνουν την φαινομενική αξία και καινοτομία της εργασίας. Ένα παράδειγμα θα ήταν μια φαινομενικά εντυπωσιακή μέθοδος παραβίασης ασφαλείας που στην πραγματικότητα βασίζεται σε κάποια πτυχή του «λευκού κουτιού» - δηλαδή, προνομιακή πρόσβαση κάποιου είδους σε δεδομένα ή διαδικασίες, όπως αυτές που ένας εισβολέας πιθανότατα δεν θα μπορούσε να εξασφαλίσει.

Τι να περιμένετε το 2026

Αν και τα μέσα ενημέρωσης είναι ρίφινγκ συνεχώς σχετικά με την άνθηση της Γενιάς Τεχνητής Νοημοσύνης ως επανάληψη της πανωλεθρίας της άνθησης και της πτώσης των dot.com στις αρχές της δεκαετίας του 2000 (με κάποια διαφωνία), αυτό στην πραγματικότητα φαίνεται να αντιπροσωπεύει ένα είδος ψευδούς ασφάλειας. Όσον αφορά τις υποδομές, τις επενδύσεις, τον πολιτισμό και έρευνα, αναμφισβήτητα δεν έχει υπάρξει ποτέ τέτοια εποχή στην ανθρώπινη ιστορία.

Επομένως, είναι δύσκολο να δούμε πώς θα εξελιχθεί η ερευνητική σκηνή το 2026, εκτός από το ότι – όπως συνήθως – μια σειρά από μακροπρόθεσμες προσπάθειες θα κορυφωθούν από τώρα έως τον Απρίλιο, με μια συγκεκριμένη «σφραγίδα» των εμμονών και των τάσεων του 2025 να τις διακρίνει.

Μια εξέλιξη που μπορεί να βοηθήσει στην αντιμετώπιση της κρίσης όγκου υποβολών στο Arxiv και σε άλλες πύλες είναι η απαγόρευση ή ο έλεγχος των εργασιών που δημιουργούνται/υποβοηθούνται από τεχνητή νοημοσύνη, καθώς Το Arxiv θεσπίστηκε πρόσφατα για εργασίες ανασκόπησης. – ωστόσο, η έκταση της εμπλοκής της Τεχνητής Νοημοσύνης σε οποιαδήποτε εργασία μπορεί να αποδειχθεί δύσκολο να ποσοτικοποιηθεί, καθώς η Τεχνητή Νοημοσύνη έχει διείσδυσε την ερευνητική κουλτούρα (και αξιολόγησης από ομοτίμους) όπως ακριβώς έχει καταπατήσει άλλους τομείς – σαν μια σταγόνα «μελανιού» που επηρεάζει ολόκληρο το (υπάρχον) ποτήρι νερό, αντί να αλλάζει ριζικά το μέσο.

 

Πρώτη δημοσίευση Δευτέρα, 22 Δεκεμβρίου 2025

Συγγραφέας στη μηχανική μάθηση, ειδικός τομέα στη σύνθεση ανθρώπινης εικόνας. Πρώην επικεφαλής ερευνητικού περιεχομένου στο Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επαφή: [προστασία μέσω email]
Twitter: @manders_ai