Connect with us

Andersons vinkel

En personlig tilgang til computer vision litteraturtrends i 2025

mm
AI-generated image, by gpt-image-1 via ChatGPT-5.2, featuring a stylized isometric illustration of white-coated scientists in a computer laboratory.

Ethiske afsløringer og Gaussian Splatting er på tilbagegang, mens det rene volumen af indsendte artikler repræsenterer et nyt problem for AI at tackle i 2026.

 

Opinion Jeg har følgende computer vision og image synthesis forskning på arXiv og relaterede kanaler i omtrent syv år, på tværs af forskellige kanaler – længe nok til at skelne mellem gentagne mønstre og skift i trends. Men disse observationer er anekdotiske. Jeg ønsker ærligt, at jeg havde tid til at udnytte de enorme korpora af stadig voksende data, der repræsenterer Arxiv-publicationstrømmen alene, som sandsynligvis er rig på skjulte indsighter, ved hjælp af maskinlæringsanalyse. Som det er, kan jeg kun rapportere mere uformelt, hvad der kom til min opmærksomhed siden jeg sidst overvejede sagen.

Volume på 11

Mange af trendene i AI-forskningsartikelindsendelser, som jeg observerede i 2024, etablerede sig som faste i 2025; ikke mindst af disse er den uafbrudte og fortsatte stigning i volumen af AI-relaterede artikler, som i sig selv er drevet af AI, til et punkt af en opfattet krise:

Månedlige computer science Arxiv-indsendelser, oktober 2023-november 2025, med 3-måneders glidende gennemsnit overlagt. Kilde: https://arxiv.org/stats/monthly_submissions

Månedlige computer science Arxiv-indsendelser, oktober 2023-november 2025, med 3-måneders glidende gennemsnit overlagt. Kilde

Denne vækstrate blev karakteriseret som en eksponentiel fordobling i volumen af AI-papirindsendelser, for flere år siden, og det har kun taget en dybere hold som den seneste opblomstring af AI-investeringmani har øget spillet, såvel som mængden af tilgængelig finansiering til AI-relateret forskning.

Fulde statistikker for 2025 er ikke tilgængelige endnu, og de samlede statistikker ovenfor repræsenterer de generelle tal, der stiger på tværs af alle kategorier. Nedenfor kan vi se, at computer science fortsætter med at ride en dominerende trend, betydeligt over sine stabile kammerater:

2022-2025 stigning i CS-indsendelser. Kilde - https://info.arxiv.org/about/reports/submission_category_by_year.html

2022-2025 stigning i CS-indsendelser. Kilde

Sortering af byrden

I oktober, starten på efterårs konference-sæsonen, som altid bringer en flod af nye forskningsresultater, kom i stedet en DOS-angrebs niveau volumen af indsendelser, hvilket gav yderligere impetus og urgency til den hidtil under-beskedne forskningsstrang af forsknings trends analyse; med andre ord, papirer og repositoryer, der søger at skære igennem den forværrede signal-til-støj-forhold i forskningsscenen.

Det seneste kom kun forleden, i form af NoveltyRank, en papir og GitHub repository, som finjusterer LLM’er såsom Qwen3-4B-Instruct-2507 og SciBERT så de kan udføre binær klassificering af indsendte papirer (forudsiger ‘nyskabelse’ fra tidligere indsendelser), eller også parvis nyskabelse-sammenligning (sammenligner nuværende indsendelser for ‘nyskabelse’):

NoveltyRank-systemet sammenligner titlen og abstract af en indsendelse med lignende tidligere papirer, summerer forskellene ved hjælp af en LLM og sender dette til en finjusteret Qwen3-4B-model, der afgør, om arbejdet kan betegnes som 'konceptuelt nyt'.

NoveltyRank-systemet sammenligner titlen og abstract af en indsendelse med lignende tidligere papirer, summerer forskellene ved hjælp af en LLM og sender dette til en finjusteret Qwen3-4B-model, der afgør, om arbejdet kan betegnes som ‘konceptuelt nyt’. Kilde

Problemet med sådanne ‘siftning’ tilgange er udfordringen i at definere meningsfulde variabler. NoveltyRank-tilgangen bruger et papirs accept til konference som en indeks for nyskabelse, og – måske lidt nedladende – bruger Arxiv-publication som en baggrundsindeks af negativ nyskabelse.

Dette antager to fejlende præmisser: først, at alle konference-accepterede indsendelser er nyskabende eller af betydning, hvilket åbenbart ikke er tilfældet; og anden, at nyskabelse i sig selv er af ukvalificeret værdi. Enhver, der har spildt en halv time på nogle af de tvivlsomme, ja latterlige papirer, der er indsendt – måske – udelukkende for at opretholde ‘publicer-eller-dør’ kvoter, vil vide, at nyskabelse ofte er trivial, og inkremental arbejde ofte betydningsfuldt.

At forstå værdien af et nyt papir indebærer et område, hvor AI er meget svag – langsigtede kontekst. Fordi de ofte er skrevet på en uærlig måde, kan papirer, der synes at bryde nye grunde, ofte afsløres som mindre fremskridt på eksisterende arbejde; dog vil automatiserede systemer skulle udvikle en ‘intuition’ for sådanne tilfælde, uden at flagge multiple falske positive, og uden at afhænge af ærligheden af de indsendende forfattere.

Ethisk dykning

Som jeg har observeret før, er portalen som Arxiv ret modtagelig for laissez faire scraping, og de data-dumps, de leverer, mangler ofte granuleret detalje.

Derfor, selv hvis jeg havde ressourcerne og tiden til at downloade og trække funktioner fra et tilstrækkeligt repræsentativt tværsnit af computer science-papirer, vil mange af de mere subtile trends ikke være blevet målrettet eller analyseret.

En af disse er tilstedeværelsen eller fraværet af etiske udtalelse codiciller; længe en obligatorisk inklusion for biologiske videnskaber, der berører dyreforsøg, så 2024 det højeste punkt i trenden mod etisk karakterisering af et foreslået arbejde, ved slutningen af indsendte papirer i Computer Science-kategorien.

Anekdotisk siger jeg, at denne praksis er faldet af en klippe i løbet af 2025. Min gæt er, at den ivrige dereguleringsindsats fra den nuværende amerikanske regering i forhold til AI-udvikling, har givet forskningsfællesskabet både i USA og i udlandet, en vis øget licens og en vis implicit beskyttelse mod retslig eksponering.

Uanset dens støtte til anti-deepfake regulering, har den nuværende amerikanske administration effektivt genskabt meget af ‘wild west’ holdningen, der kendetegnede 2021-23 æraen – selvom konteksten af ren videnskabelig forskning, der definerede det, siden er udviklet til en feberagtig, ja historisk niveau af investering.

Generative video papirer som ‘AI-slop’

Med lanceringen af Hunyuan Video og WAN generative video-serien over sidste vinter, er AI-video blevet fuldstændigt forvandlet i 2025. Gamle barrierer som sværheden ved at lave komplet-figur avatars eller at opnå overbevisende profil-views af en person, blev fejet væk åbenbart over nat.

De overvældende vægt-inkluderende udgivelser af denne type fra Kina har, påstået, sat tempo for generative video-udgivelser dette år, og er mindst en modvirkende tryk på tendensen til, at vestlige AI-videoarkitekturer er langt mere censurerede, præ-kommercialiserede og foreskrevne.

Den manglen på en grav i denne ironisk demokratiske CCCP-ledede scene har ført til hundredvis, hvis ikke tusindvis af virksomheder, der søger at udnytte den nyemarked for slutbrug, ved at tilbyde brugervenlige portaler, med spillere så forskellige som civit.ai og RunPod profiterer af procedurer og teknologier, der i mange tilfælde kunne køres på hjemmecomputere.

I almindelighed er disse initiativer kortsigtede pengegrab, der forventer at blive overtaget af eventuel markedsconsolidering (selvom deres grundlæggere sandsynligvis ikke ville have noget imod at tilfældigt støde på en dominerende markedsandel, hvis det skulle ske).

Denne samme almindelighed og gentagelse har ramt den generative video-strang i Arxivs indsendelser i 2025. Som jeg observerede sidste uge, har signal-til-støj-forholdet for denne kategori nået et nummerende peak, da forskere konkurrerer offentligt om de massive mængder af potentielle finansiering, som dette års gennembrud sandsynligvis har frigjort.

Det siges, at det overvældende flertal af indsendelser af denne type er blot inkrementelle fremskridt, i bedste fald. De grundlæggende problemer, der er tilbage i generativ AI, har ikke overfladget meget dette år: behovet for at opretholde identitet, LoRA-stil, på tværs af en karakter-skildring; behovet for længere køretider for output-video, med samlet konsistens (dvs. af miljøer og temaer osv., ikke kun ID) opretholdt; og forbedret audio-generering og manipulation inden for generative video og video-redigering arkitekturer; blandt andre.

Mesh-feber aftager

Jeg observerede sidste år, at scenen oplevede en bemærkelsesværdig stigning i papirer, der fremmer systemer, der udnytter traditionel CGI (dvs. mesh-baserede repræsentationer af den type, der stammer fra 1970’erne), eller inkorporerer det i neurale rammer. Jeg har observeret en betydelig formindskning af impetus mod mesh-baserede løsninger, især i den sidste halvdel af året, over 2025.

Mange af de CGI-inkorporerede løsninger i den tidligere bølge af papirer, især de, der handler om parametrisk menneskelig ‘kontrol’-figurer såsom 3D-morfable modeller, kan være erstattet af de nye muligheder i diffusion-baserede generative rammer såsom Veo, Kling, Hunyuan og WAN, blandt mange andre.

På samme tid er papirer, der handler om Gaussian Splat-tilgange, åbenbart også blevet påvirket enten af udviklingsstagnation eller gennem at blive overgået af 2025’s diffusion-baserede gen AI-systemer; eller begge.

Formindskning i AI-sikkerhedsindsendelser

Min sidste observation for 2025 er, at ‘Security’-indsendelser-kategorien i Computer Science-sektionen på Arxiv har vist en bemærkelsesværdig fald i hyppighed og kvalitet i 2025, og det er ikke let at gætte, hvorfor.

Den Cryptography and Security-arkiv har sandsynligvis altid været en andenrangskategori til at offentliggøre papirer, da denne gren af forskning er ikke overraskende domineret af privat sektors ejendomsret – lidt af dette kommer til syne i akademiske tidsskrifter, og næsten ingen af det ses i gratis platforme såsom Arxiv.

Derudover har indsendelser til denne kategori på Arxiv en højere-end-gennemsnitlig mængde ‘gotchas’ – under-spillede admissioner, ofte begravet i uventede steder, som negere eller formindsker den åbenlyse værdi og nyskabelse af papiret. Et eksempel ville være en åbenlyst sensationel sikkerheds-intrusionsmetode, der i virkeligheden afhænger af nogen ‘white box’-aspekt – dvs. privilegeret adgang til data eller procedurer, såsom en angriber ikke sandsynligvis kan sikre.

Hvad at forvente i 2026

Selvom medierne riffer konstant på Gen AI-boomet som en gentagelse af dot.com-boom-og-bust-katastrofen i begyndelsen af 2000’erne (med nogen uenighed), så dette faktisk synes at repræsentere en slags falsk sikkerhed. I forhold til infrastruktur, investering, kultur og forskning, har der sandsynligvis ikke været en sådan tid som denne i menneskehedens historie.

Derfor er det svært at se, hvilken vej forskningsscenen vil trende i 2026, bortset fra, at – som sædvanligt – en række langsigtede bestræbelser vil kulminere mellem nu og april, med en vis ‘stempel’ af 2025’s besættelser og trends, der kendetegner dem.

En udvikling, der kan hjælpe med indsendelsesvolumen-krisen på Arxiv og andre portalen, er et forbud eller en check på AI-genererede/assisterede papirer, som Arxiv nyligt iværksatte for anmeldelsesartikler – dog kan omfanget af AI’s involvering i et enkelt papir vise sig at være svært at kvantificere, da AI har trængt ind i forskningskulturen (og peer review) så meget som det har trængt ind i andre domæner – som en dråbe ‘blæk’, der påvirker hele (eksisterende) glas vand, snarere end radikalt ændrer mediet.

 

Offentliggjort første gang mandag, den 22. december 2025

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.