Connect with us

Una prospettiva personale sulle tendenze della letteratura di Computer Vision nel 2025

Angolo di Anderson

Una prospettiva personale sulle tendenze della letteratura di Computer Vision nel 2025

mm
AI-generated image, by gpt-image-1 via ChatGPT-5.2, featuring a stylized isometric illustration of white-coated scientists in a computer laboratory.

Le dichiarazioni etiche e il Gaussian Splatting sono in declino, mentre il volume impressionante di articoli presentati rappresenta un nuovo problema per l’AI da affrontare nel 2026.

 

Opinione Ho seguito la ricerca sulla visione artificiale e la sintesi di immagini su arXiv e altre piattaforme per circa sette anni, attraverso vari canali – abbastanza a lungo per distinguere modelli ricorrenti e cambiamenti nelle tendenze. Ma queste osservazioni sono aneddotiche. Spero sinceramente di avere il tempo per sfruttare i vasti corpora di dati in costante crescita rappresentati dal flusso di pubblicazioni Arxiv, che sono sicuramente ricchi di intuizioni nascoste, utilizzando l’analisi del machine learning. Come stanno le cose, posso solo riferire più casualmente ciò che è venuto alla mia attenzione dal mio ultimo esame della questione.

Volume a 11

Molte delle tendenze nelle presentazioni di articoli di ricerca sull’AI che ho osservato nel 2024 si sono stabilite come punti fermi nel 2025; non ultimo tra questi è l’incessante e continua crescita del volume di articoli sull’AI, alimentata dall’AI stessa, al punto di una crisi percepita:

Presentazioni mensili di scienza informatica su Arxiv, ottobre 2023-novembre 2025, con media mobile di 3 mesi sovrapposta. Fonte: https://arxiv.org/stats/monthly_submissions

Presentazioni mensili di scienza informatica su Arxiv, ottobre 2023-novembre 2025, con media mobile di 3 mesi sovrapposta. Fonte

Questo tasso di crescita è stato caratterizzato come un raddoppio esponenziale nel volume delle presentazioni di articoli sull’AI, diversi anni fa, e ha solo preso una presa più salda con l’ultima ondata di mania degli investimenti sull’AI che ha aumentato le poste in gioco, nonché la quantità di finanziamenti disponibili per la ricerca sull’AI.

Le statistiche complete per il 2025 non sono ancora disponibili, e le statistiche aggregate mostrate sopra rappresentano i numeri generali in aumento in tutte le categorie. Di seguito possiamo vedere che la scienza informatica continua a cavalcare una tendenza dominante, significativamente al di sopra dei suoi compagni di squadra:

Aumento delle presentazioni di scienza informatica nel 2022-2025. Fonte - https://info.arxiv.org/about/reports/submission_category_by_year.html

Aumento delle presentazioni di scienza informatica nel 2022-2025. Fonte

Ordinare il grano

In ottobre, l’inizio della stagione delle conferenze autunnali, che porta sempre una valanga di nuove ricerche, ha portato invece un volume di presentazioni al livello di un attacco DOS, dando ulteriore impulso e urgenza alla corrente di ricerca fino ad allora sottovalutata dell’analisi delle tendenze della ricerca; in altre parole, articoli e repository stanno aumentando che, in se stessi, cercano di tagliare attraverso il peggior rapporto segnale/rumore nella scena della ricerca.

L’ultimo è arrivato solo la scorsa settimana, nella forma di NoveltyRank, un articolo e repository GitHub che affina LLM come Qwen3-4B-Instruct-2507 e SciBERT in modo che possano eseguire una classificazione binaria di articoli presentati (prevedendo la ‘novità’ dalle presentazioni precedenti), o altrimenti un confronto di novità per coppia (confrontando le presentazioni attuali per ‘novità’):

Il sistema NoveltyRank confronta il titolo e l'abstract di una presentazione con articoli simili del passato, riassume le differenze utilizzando un LLM e le passa a un modello Qwen3-4B affinato che decide se il lavoro conta come 'concettualmente nuovo'. Fonte - https://arxiv.org/pdf/2512.14738

Il sistema NoveltyRank confronta il titolo e l’abstract di una presentazione con articoli simili del passato, riassume le differenze utilizzando un LLM e le passa a un modello Qwen3-4B affinato che decide se il lavoro conta come ‘concettualmente nuovo’. Fonte

Il problema con tali approcci di ‘setacciatura’ è la sfida di definire variabili significative. L’approccio NoveltyRank utilizza l’accettazione di un articolo in una conferenza come indice di novità e – forse in modo un po’ liquidatorio – utilizza la pubblicazione su Arxiv come indice di negativa novità.

Questo presuppone due premesse false: in primo luogo, che tutte le presentazioni accettate in conferenza siano nuove o di conseguenza, il che è manifestamente non il caso; e in secondo luogo, che la novità stessa sia di valore incondizionato. Chiunque abbia sprecato mezz’ora su alcuni degli articoli presentati – forse – solo per mantenere ‘quote di pubblicazione o perire’, sa che la novità è spesso banale e il lavoro incrementale è spesso significativo.

Comprendere il valore di un nuovo articolo coinvolge un’area in cui l’AI è attualmente molto debole – il contesto a lungo termine a lungo termine. A causa del modo spesso disonesto in cui sono scritti, gli articoli che sembrano fare una svolta possono essere rivelati come piccoli progressi rispetto al lavoro esistente; tuttavia, i sistemi automatizzati dovranno sviluppare un ‘intuito’ per tali casi, senza segnalare falsi positivi multipli e senza affidarsi all’onestà degli autori che presentano.

Calo etico

Come ho osservato in precedenza, portali come Arxiv sono piuttosto resistenti al laissez faire scraping, e i dati che forniscono spesso mancano di dettagli granulari.

Pertanto, anche se avessi le risorse e il tempo per scaricare ed estrarre caratteristiche da una sezione rappresentativa di articoli di scienza informatica, molte delle tendenze più sottili non saranno state mirate o analizzate.

Una di queste è la presenza o l’assenza di codicilli di dichiarazioni etiche; a lungo un inclusione obbligatoria per le scienze biologiche che toccano la sperimentazione animale, il 2024 ha visto l’apice della tendenza verso la caratterizzazione etica di un lavoro proposto, alla fine delle presentazioni di articoli nella categoria Scienza informatica.

Anedoticamente, dico che questa pratica è crollata nel 2025. La mia ipotesi è che gli sforzi ferventi di deregolamentazione del governo degli Stati Uniti attuale, in relazione allo sviluppo dell’AI, ha dato alla comunità di ricerca sia negli Stati Uniti che all’estero, una certa licenza aumentata e un senso di protezione implicita dall’esposizione legale.

Nonostante il suo sostegno per la regolamentazione anti-deepfake, l’amministrazione degli Stati Uniti attuale ha effettivamente restaurato gran parte della posizione ‘wild west’ che caratterizzava l’era 2021-23 – anche se il contesto di pura ricerca scientifica che lo definiva è da allora evoluta in livelli ferventi, addirittura storici, di investimenti.

Articoli di video generativi come ‘sudiciume AI’

Con il lancio della serie di video generativi Hunyuan Video e WAN lo scorso inverno, l’AI video è stato completamente trasformato nel 2025. Vecchi ostacoli come la difficoltà di creare avatar di figura completa, o di ottenere viste di profilo convincenti di una persona, sono stati spazzati via apparentemente nella notte.

Le generose uscite con pesi inclusi di questo tipo dalla Cina hanno, arguably, imposto il ritmo per le uscite di video generativi di quest’anno, e sono almeno una pressione contraria sulla tendenza delle architetture di video AI occidentali di essere molto più censurate, precapitalizzate e prescritte.

La assenza di un fossato in questa scena ironicamente democratica guidata dalla Cina ha portato a centinaia, se non migliaia di aziende che cercano di sfruttare il mercato nascente per l’inferenza offrendo portali facili da usare, con giocatori diversi come civit.ai e RunPod che traggono profitto da procedure e tecnologie che, in molti casi, potrebbero essere eseguite su computer domestici.

In generale, queste iniziative sono trappole per guadagni a breve termine che si aspettano di essere soppiantate da una consolidazione del mercato (anche se, senza dubbio, i loro fondatori non si opporrebbero a imbattersi accidentalmente in una quota di mercato dominante, se dovesse verificarsi).

Questa stessa banalità e replica ha colpito la corrente di video generativi nelle presentazioni di Arxiv nel 2025. Come ho osservato la scorsa settimana, il rapporto segnale/rumore per questa categoria ha raggiunto un picco stordente, poiché i ricercatori competono pubblicamente per le enormi quantità di finanziamenti potenziali che le innovazioni di quest’anno hanno senza dubbio rilasciato.

Detto questo, la stragrande maggioranza di queste presentazioni è solo un avanzamento incrementale, nel migliore dei casi. I problemi fondamentali rimanenti nell’AI generativa non sono emersi molto quest’anno: la necessità di mantenere l’identità, nello stile LoRA, in tutta la rappresentazione di un personaggio; la necessità di tempi di esecuzione più lunghi per i video di output, con la coerenza generale (ad esempio, ambienti e temi, ecc., non solo ID) mantenuta; e per una migliore generazione e manipolazione audio all’interno delle architetture di video generativo e di editing video; tra gli altri.

La febbre della mesh si attenua

Ho osservato l’anno scorso che la scena stava vivendo un notevole aumento di articoli che promuovono sistemi che sfruttano la CGI tradizionale (ad esempio, rappresentazioni basate su mesh del tipo che risale agli anni ’70), o le incorpora in framework neurali. Ho osservato una diminuzione significativa dell’impulso verso soluzioni basate su mesh, in particolare nella seconda metà dell’anno, nel 2025.

Molte delle soluzioni incorporate nella CGI di quell’ondata di articoli precedenti, in particolare quelle che trattano di figure di controllo parametriche umane come modelli morphable 3D, possono essere state sostituite dalle nuove capacità dei framework generativi diffusivi come Veo, Kling, Hunyuan e WAN, tra molti altri.

Allo stesso tempo, gli articoli che trattano di approcci Gaussian Splat sembrano essere stati influenzati da una stagnazione dello sviluppo o dall’essere eclissati dai sistemi di AI generativa basati sulla diffusione del 2025; o entrambi.

Un anno fa notai che l’entusiasmo iniziale del GSplat, che fece una impressione notevole alla fine del 2023, si era trasformato in linee di ricerca più strette. Quest’anno, vedo una serie di articoli finalizzati a risolvere le significative richieste di risorse di questo approccio, tra gli altri problemi.

Sebbene caratterizzerei il Gaussian Splatting come ‘attualmente in stallo’, dovremmo ricordare che questa tecnologia risale ai primi anni ’90 e ha una natura revenante.

Un’eccezione a questo ritiro generale dalle approcci basati su mesh è un’apparente aumento di interesse per l’integrazione dell’AI in framework finalizzati alla stampa 3D.

Diminuzione delle presentazioni sulla sicurezza AI

La mia ultima osservazione per il 2025 è che la categoria ‘Sicurezza’ nelle presentazioni di Scienza informatica su Arxiv ha mostrato un calo significativo in frequenza e qualità nel 2025, e non è facile indovinare il motivo.

L’archivio Crittografia e Sicurezza è stato a lungo un posto di seconda classe per pubblicare articoli, poiché questa corrente di ricerca è sorprendentemente dominata da proprietà intellettuale privata – poco di cui emerge in riviste accademiche, e quasi nessuno di cui si vede in piattaforme gratuite come Arxiv.

Inoltre, le presentazioni a questa categoria su Arxiv hanno un numero più alto della media di ‘gotchas’ – ammissioni sottovalutate, spesso sepolte in luoghi inaspettati, che negano o diminuiscono il valore e la novità apparente dell’articolo. Un esempio sarebbe un metodo di violazione della sicurezza apparentemente sensazionale che in realtà si basa su alcuni aspetti ‘white box’ – ad esempio, l’accesso privilegiato ai dati o alle procedure, come un attaccante non potrebbe probabilmente assicurare.

Cosa aspettarsi nel 2026

Sebbene i media stiano riffando costantemente sulla bolla dell’AI come una ripetizione del disastro della bolla dot-com dei primi anni 2000 (con qualche dissenso), questo sembra rappresentare una sorta di falsa sicurezza. In termini di infrastrutture, investimenti, cultura e ricerca, non c’è stato un momento come questo nella storia umana.

Pertanto, è difficile vedere in quale direzione la scena della ricerca si muoverà nel 2026, tranne che – come al solito – una serie di sforzi a lungo termine culmineranno tra ora e aprile, con un certo ‘timbro’ delle ossessioni e delle tendenze del 2025 che le distinguono.

Uno sviluppo che potrebbe aiutare la crisi del volume di presentazioni su Arxiv e altri portali è un divieto o un controllo sui saggi generati/aiutati dall’AI, come Arxiv ha recentemente attuato per gli articoli di revisione – tuttavia, l’estensione del coinvolgimento dell’AI in un qualsiasi articolo potrebbe rivelarsi difficile da quantificare, poiché l’AI ha penetrato la cultura della ricerca (e peer review) molto come ha invaso altri domini – come una goccia di ‘inchiostro’ che influenza l’intero (esistente) vetro d’acqua, piuttosto che cambiare radicalmente il mezzo.

 

Pubblicato per la prima volta lunedì 22 dicembre 2025

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.