Connect with us

Andersons Blickwinkel

Eine persönliche Sicht auf Trends in der Computer-Vision-Literatur 2025

mm
AI-generated image, by gpt-image-1 via ChatGPT-5.2, featuring a stylized isometric illustration of white-coated scientists in a computer laboratory.

Ethische Offenlegungen und Gaussian Splatting sind im Rückgang begriffen, während das reine Volumen der eingereichten Arbeiten ein neues Problem für KI darstellt, das 2026 angegangen werden muss.

 

Meinung Ich habe Computer-Vision- und Bildsyntheseforschung auf arXiv und verwandten Plattformen für etwa sieben Jahre verfolgt, über verschiedene Kanäle – lange genug, um wiederkehrende Muster und Verschiebungen in Trends zu erkennen. Aber diese Beobachtungen sind anekdotisch. Ich wünsche mir ehrlich, ich hätte die Zeit, die riesigen Korpora der ständig wachsenden Daten, die allein durch den Arxiv-Veröffentlichungsstrom dargestellt werden, zu nutzen, die sicherlich reich an verborgenen Erkenntnissen sind, mithilfe von Machine-Learning-Analysen. Wie es steht, kann ich nur berichten, was mir seit meiner letzten Betrachtung aufgefallen ist.

Volume auf 11

Viele der Trends in der Einreichung von AI-Forschungsarbeiten, die ich 2024 beobachtet habe, haben sich 2025 als feste Größen etabliert; nicht zuletzt ist dies der unerbittliche und anhaltende Anstieg des Volumens von AI-bezogenen Arbeiten, der selbst durch AI angetrieben wird, bis hin zu einem wahrgenommenen Krisenzustand:

Monatliche Computerwissenschaft-Arxiv-Einreichungen, Oktober 2023-November 2025, mit 3-Monats-Durchschnittswert überlagert. Quelle: https://arxiv.org/stats/monthly_submissions

Monatliche Computerwissenschaft-Arxiv-Einreichungen, Oktober 2023-November 2025, mit 3-Monats-Durchschnittswert überlagert. Quelle

Diese Wachstumsrate wurde als exponentielles Verdoppeln des Volumens der AI-Arbeitseinreichungen charakterisiert, vor einigen Jahren, und hat nur noch mehr Fuß gefasst, da die jüngste Ankunft von AI-Investitionsmania die Einsätze erhöht hat, sowie die Menge an verfügbaren Mitteln für AI-bezogene Forschung.

Vollständige Statistiken für 2025 sind noch nicht verfügbar, und die aggregierten Statistiken oben stellen die allgemeinen Zahlen dar, die in allen Kategorien zunehmen:

Zunahme der Einreichungen in der Informatik 2022-2025. Quelle - https://info.arxiv.org/about/reports/submission_category_by_year.html

Zunahme der Einreichungen in der Informatik 2022-2025. Quelle

Das Getreide vom Unkraut trennen

Im Oktober, dem Beginn der Herbstkonferenzsaison, die immer eine Flut neuer Forschung bringt, kam stattdessen ein DOS-Angriffsniveau an Einreichungen, was zusätzlichen Antrieb und Dringlichkeit für den bisher unterbesetzten Forschungsstrang der Trendanalyse gab; mit anderen Worten, es erschienen immer mehr Arbeiten und Repositories, die selbst versuchten, das zunehmende Rauschen im Forschungsszenario zu durchdringen.

Das neueste kam erst letzte Woche in Form von NoveltyRank, einem Paper und einem GitHub-Repository, das LLMs wie Qwen3-4B-Instruct-2507 und SciBERT feinjustiert, damit sie binäre Klassifizierung von eingereichten Arbeiten durchführen können (Vorhersage von “Novität” aus vorherigen Einreichungen) oder Paarvergleiche von “Novität” (Vergleich aktueller Einreichungen für “Novität”):

Das NoveltyRank-System vergleicht den Titel und das Abstract einer Einreichung mit ähnlichen vorherigen Arbeiten, fasst die Unterschiede mit einem LLM zusammen und übergibt dies an ein feinjustiertes Qwen3-4B-Modell, das entscheidet, ob die Arbeit als “konzeptionell neu” gilt. Quelle

Das Problem mit solchen “Sieb”-Ansätzen ist die Herausforderung, bedeutungsvolle Variablen zu definieren. Der NoveltyRank-Ansatz verwendet die Annahme einer Arbeit zu einer Konferenz als Index der Novität und – vielleicht eher abweisend – verwendet die Arxiv-Veröffentlichung als Hintergrundindex der Negativnovität.

Dies geht von zwei falschen Prämissen aus: erstens, dass alle angenommenen Konferenzarbeiten neu oder von Bedeutung sind, was offensichtlich nicht der Fall ist; und zweitens, dass Novität selbst einen unqualifizierten Wert hat. Jeder, der eine halbe Stunde auf einige der speziosen, sogar lächerlichen Arbeiten verschwendet hat, die möglicherweise – nur, um ‘publish-or-perish’-Quoten zu erhalten, wird wissen, dass Novität oft trivial ist und inkrementelle Arbeit oft bedeutend ist.

Das Verständnis des Wertes einer neuen Arbeit umfasst ein Gebiet, in dem KI derzeit sehr schwach ist – langfristige Kontext. Da Arbeiten oft auf unaufrechtene Weise geschrieben werden, können Arbeiten, die den Anschein erwecken, Neuland zu betreten, oft als geringe Fortschritte auf bestehender Arbeit enthüllt werden; jedoch müssen automatisierte Systeme eine “Intuition” für solche Fälle entwickeln, ohne multiple falsche Positivergebnisse zu verursachen und ohne sich auf die Ehrlichkeit der einreichenden Autoren zu verlassen.

Ethischer Absturz

Wie ich vorher beobachtet habe, sind Portale wie Arxiv ziemlich resistent gegen laissez faire-Scraping, und die Daten, die sie liefern, fehlen oft an granularer Detailgenauigkeit.

Daher wäre es, selbst wenn ich die Ressourcen und Zeit hätte, um eine angemessene repräsentative Querschnittmenge von Informatikarbeiten herunterzuladen und Merkmale zu extrahieren, viele der subtileren Trends nicht gezielt oder analysiert.

Einer dieser Trends ist das Vorhandensein oder Fehlen von ethischen Erklärungen; lange ein obligatorischer Bestandteil für biologische Wissenschaften, die Tierexperimente berühren, sah 2024 den Höhepunkt des Trends zur ethischen Charakterisierung einer vorgeschlagenen Arbeit am Ende der eingereichten Arbeiten in der Kategorie Informatik.

Anekdotisch sage ich, dass diese Praxis in ganz 2025 abgeklungen ist. Meine Vermutung ist, dass die eifrigen Deregulierungsbestrebungen der aktuellen US-Regierung in Bezug auf die AI-Entwicklung der Forschungsgemeinschaft sowohl in den USA als auch im Ausland eine gewisse Lizenz und ein Gefühl impliziten Schutzes vor rechtlicher Haftung gegeben hat.

Ungeachtet ihrer Unterstützung für Anti-Deepfake-Regulierungen hat die derzeitige US-Regierung effektiv viel von der “Wild-West”-Haltung wiederhergestellt, die die Ära 2021-23 geprägt hat – obwohl der Kontext der reinen wissenschaftlichen Forschung, die sie definierte, sich seitdem in eine eifrige, sogar historische Investition entwickelt hat.

Generative Videoarbeiten als “KI-Schlamm”

Mit dem Start der Hunyuan-Video- und WAN-Generierungsreihe im letzten Winter wurde KI-Video 2025 vollständig transformiert. Alte Hindernisse wie die Schwierigkeit, vollständige Körper-Avatare zu erstellen oder überzeugende Profilansichten einer Person zu erhalten, wurden offensichtlich über Nacht weggefegt.

Die reichhaltigen, mit Gewichten versehenen Veröffentlichungen dieser Art aus China haben arguably das Tempo für generative Videoveröffentlichungen in diesem Jahr vorgegeben und sind zumindest ein kontraktiver Druck auf die Tendenz westlicher KI-Videoarchitekturen, zensierter, kommerzialisiert und vorgeschrieben zu sein.

Die Abwesenheit eines Grabens in dieser ironischerweise demokratischen CCCP-geführten Szene hat zu Hunderten, wenn nicht Tausenden von Unternehmen geführt, die den nascenten Markt für Inferenz durch Benutzerfreundliche Portale ausbeuten wollen, wobei Spieler wie civit.ai und RunPod von Verfahren und Technologien profitieren, die in vielen Fällen auf Haushaltscomputern ausgeführt werden könnten.

Im Allgemeinen sind diese Initiativen kurzfristige Bargeld-Grabs, die darauf warten, von einer eventuellen Marktkonsolidierung abgelöst zu werden (obwohl ihre Gründer sicherlich nicht gegen einen dominanten Marktanteil protestieren würden, wenn dieser zufällig eintreten sollte).

Diese gleiche Alltäglichkeit und Reproduzierbarkeit hat den generativen Videozweig in den Arxiv-Einreichungen 2025 erreicht. Wie ich letzte Woche beobachtet habe, hat das Signal-Rausch-Verhältnis für diese Kategorie ein betäubendes Maximum erreicht, da Forscher öffentlich um die massiven potenziellen Finanzierungsmittel konkurrieren, die die Durchbrüche dieses Jahres zweifellos freigesetzt haben.

Das meiste davon sind jedoch bloße inkrementale Fortschritte, bestenfalls. Die Kernprobleme, die in der generativen KI verbleiben, sind in diesem Jahr nicht viel aufgetaucht: die Notwendigkeit, Identität beizubehalten, LoRA-Style, während einer Charakterdarstellung; die Notwendigkeit für längere Laufzeiten für Ausgabevideos, mit insgesamt konsistenter (d. h. von Umgebungen und Themen usw., nicht nur ID) beibehaltener Konsistenz; und für verbesserte Audioerzeugung und -manipulation innerhalb generativer Video- und Videoeditierungsarchitekturen; unter anderen.

Gitterfieber lässt nach

Ich habe letztes Jahr beobachtet, dass die Szene eine bemerkenswerte Zunahme an Arbeiten erlebte, die Systeme fördern, die traditionelle CGI (d. h. meshbasierte Darstellungen der Art, die bis in die 1970er Jahre zurückreichen) nutzen oder sie in neuronale Frameworks integrieren. Ich habe eine signifikante Abnahme des Impulses zu meshbasierten Lösungen beobachtet, insbesondere in der zweiten Hälfte des Jahres, über 2025.

Viele der CGI-integrierten Lösungen in dieser früheren Welle von Arbeiten, insbesondere diejenigen, die mit parametrischen menschlichen “Kontroll”-Figuren wie 3D-morphablen Modellen zu tun haben, mögen durch die neuen Fähigkeiten von diffusionsbasierten generativen Frameworks wie Veo, Kling, Hunyuan und WAN ersetzt worden sein.

Gleichzeitig sind Arbeiten, die Gaussian-Splat-Ansätze behandeln, offensichtlich von Entwicklungsstagnation oder durch Überschattung durch die diffusionsbasierten Gen-AI-Systeme 2025 betroffen; oder beides.

Vor einem Jahr habe ich bemerkt, dass die anfängliche Begeisterung für GSplat, die in late 2023 einen beachtlichen Eindruck hinterlassen hat, in engere Forschungslinien abgeklungen ist. In diesem Jahr sehe ich eine Reihe von Arbeiten, die darauf abzielen, die erheblichen Ressourcenanforderungen dieses Ansatzes zu bewältigen, unter anderem.

Obwohl ich Gaussian Splatting als “derzeit gestoppt” charakterisieren würde, sollten wir daran denken, dass diese Technologie bis in die frühen 1990er Jahre zurückreicht und von Natur aus wiederkehrend ist.

Eine Ausnahme von dieser allgemeinen Rückkehr von meshbasierten Ansätzen ist ein offensichtliches Interesse an der Integration von KI in Frameworks, die auf 3D-Druck abzielen.

Abnahme der AI-Sicherheitseinreichungen

Meine letzte Beobachtung für 2025 ist, dass die “Sicherheit”-Einreichungen in der Informatikkategorie bei Arxiv eine bemerkenswerte Abnahme in Häufigkeit und Qualität gezeigt haben, und es ist nicht leicht zu erraten, warum.

Das Kryptographie- und Sicherheitsarchiv ist wahrscheinlich immer ein zweitrangiger Ort, um Arbeiten zu veröffentlichen, da diese Forschungsstränge unverständlicherweise von privaten, proprietären IP dominiert werden – wenig davon taucht in akademischen Zeitschriften auf, und fast nichts davon ist in kostenlosen Plattformen wie Arxiv zu sehen.

Zusätzlich haben Einreichungen in diese Kategorie bei Arxiv eine höher als durchschnittliche Anzahl von “Gotchas” – unterbetonte Zugeständnisse, oft an unerwarteten Orten, die den scheinbaren Wert und die Novität der Arbeit negieren oder verringern. Ein Beispiel wäre eine scheinbar sensationelle Sicherheitsverletzungsmethode, die tatsächlich auf einem “White-Box”-Aspekt basiert – d. h. privilegiertem Zugang zu Daten oder Verfahren, wie es ein Angreifer wahrscheinlich nicht sichern könnte.

Was 2026 zu erwarten ist

Obwohl die Medien riffen konstant auf den Gen-AI-Boom als Wiederholung des Dot-Com-Boom-und-Bust-Debakels der frühen Nullerjahre (mit einigem Widerspruch), scheint dies tatsächlich eine Art falsche Sicherheit zu repräsentieren. In Bezug auf Infrastruktur, Investitionen, Kultur und Forschung gab es wahrscheinlich noch nie eine solche Zeit in der Menschheitsgeschichte.

Daher ist es schwer vorherzusagen, in welche Richtung die Forschungsszene 2026 tendieren wird, außer dass – wie üblich – eine Reihe langfristiger Bemühungen zwischen jetzt und April kulminieren werden, mit einem bestimmten “Stempel” von 2025er Obsessionen und Trends, die sie kennzeichnen.

Eine Entwicklung, die möglicherweise zur Lösung der Krise der Einreichungsvolumina bei Arxiv und anderen Portalen beitragen kann, ist ein Verbot oder eine Überprüfung von KI-generierten/unterstützten Arbeiten, wie Arxiv kürzlich für Review-Artikel verhängt hat – jedoch kann der Umfang der Beteiligung von KI an einer bestimmten Arbeit schwer zu quantifizieren sein, da KI die Forschungskultur (und Peer-Review) genauso durchdrungen hat wie andere Bereiche – als Tropfen “Tinte”, der das gesamte (bestehende) Wasserglas beeinflusst, anstatt das Medium radikal zu verändern.

 

Erstveröffentlichung am Montag, 22. Dezember 2025

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.