Connect with us

Osobista perspektywa na trendy w literaturze z zakresu komputerowego widzenia w 2025 roku

Kąt Andersona

Osobista perspektywa na trendy w literaturze z zakresu komputerowego widzenia w 2025 roku

mm
AI-generated image, by gpt-image-1 via ChatGPT-5.2, featuring a stylized isometric illustration of white-coated scientists in a computer laboratory.

Etyczne ujawnienia i Gaussian Splatting są na wymarzchu, podczas gdy ogromna ilość zgłoszonych prac stanowi nowy problem do rozwiązania przez sztuczną inteligencję w 2026 roku.

 

Opinia Obserwowałem badania nad komputerowym widzeniem i syntezą obrazu na arXiv i pokrewnych platformach przez około siedem lat, na różnych kanałach – wystarczająco długo, aby rozróżnić powtarzające się wzorce i zmiany trendów. Ale te obserwacje są anegdotyczne. Szczerym sercem żałuję, że nie miałem czasu, aby wykorzystać ogromne korpusy ciągle rosnących danych reprezentowanych przez samą strumień publikacji Arxiv, który z pewnością skrywa ukryte spostrzeżenia, używając analizy z wykorzystaniem uczenia maszynowego. Jak się stoi, mogę tylko relacjonować w sposób bardziej swobodny to, co zwróciło moją uwagę od czasu, gdy ostatni raz rozważałem tę kwestię.

Objętość na 11

Wiele trendów w zgłoszeniach prac badawczych z dziedziny sztucznej inteligencji, które zaobserwowałem w 2024 roku, ugruntowało się jako stałe w 2025 roku; nie mniej niż jeden z nich jest nieustannym i ciągłym wzrostem objętości prac związanych z sztuczną inteligencją, samą w sobie napędzanym przez sztuczną inteligencję, do punktu postrzeganego kryzysu:

Miesięczne zgłoszenia do Arxiv z dziedziny informatyki, od października 2023 do listopada 2025, z nałożoną trzymiesięczną średnią. Źródło: https://arxiv.org/stats/monthly_submissions

Miesięczne zgłoszenia do Arxiv z dziedziny informatyki, od października 2023 do listopada 2025, z nałożoną trzymiesięczną średnią. Źródło

Ten wskaźnik wzrostu został scharakteryzowany jako wykładnicze podwojenie objętości zgłoszeń prac z dziedziny sztucznej inteligencji, kilka lat temu, i tylko jeszcze bardziej się umocnił, gdy niedawne pojawienie się mania inwestycyjnej w dziedzinie sztucznej inteligencji podniosło stawki, a także ilość dostępnych funduszy na badania związane z sztuczną inteligencją.

Pełne statystyki za 2025 rok nie są jeszcze dostępne, a przedstawione powyżej statystyki agregatowe reprezentują ogólne wzrosty we wszystkich kategoriach. Poniżej można zobaczyć, że informatyka nadal utrzymuje dominujący trend, znacznie powyżej swoich współczesnych:

Wzrost zgłoszeń z dziedziny informatyki w latach 2022-2025. Źródło - https://info.arxiv.org/about/reports/submission_category_by_year.html

Wzrost zgłoszeń z dziedziny informatyki w latach 2022-2025. Źródło

Sortowanie słomy

W październiku, na początku sezonu konferencji, który zawsze przynosi falę nowych badań, przyniósł zamiast tego poziom objętości zgłoszeń na poziomie ataku typu DOS, dając dodatkowy impuls i pilność dotychczas mało popularnemu kierunkowi badań analizy trendów badawczych; innymi słowy, pojawiają się prace i repozytoria, które same próbują przeciąć pogarszający się stosunek sygnału do szumu w scenie badawczej.

Ostatnie pojawienie się NoveltyRank, pracy i repozytorium GitHub, które dostrojają LLM, takie jak Qwen3-4B-Instruct-2507 i SciBERT, aby mogły wykonywać klasyfikację binarną zgłoszonych prac (przewidując ‘nowość’ z poprzednich zgłoszeń), lub porównanie nowości parzystej (porównując bieżące zgłoszenia pod kątem ‘nowości’):

System NoveltyRank porównuje tytuł i abstrakt zgłoszenia z podobnymi poprzednimi pracami, podsumowuje różnice za pomocą LLM i przekazuje to do dostrojonego modelu Qwen3-4B, który decyduje, czy praca jest 'pojęciowo nowa'. Źródło - https://arxiv.org/pdf/2512.14738

System NoveltyRank porównuje tytuł i abstrakt zgłoszenia z podobnymi poprzednimi pracami, podsumowuje różnice za pomocą LLM i przekazuje to do dostrojonego modelu Qwen3-4B, który decyduje, czy praca jest ‘pojęciowo nowa’. Źródło

Problem z takimi ‘przesiewającymi’ podejściami jest wyzwaniem definiowania istotnych zmiennych. Podejście NoveltyRank używa przyjęcia pracy na konferencję jako wskaźnika nowości i – może trochę lekceważąco – używa publikacji w Arxiv jako tła negatywnej nowości.

To zakłada dwa fałszywe założenia: po pierwsze, że wszystkie przyjęte na konferencję zgłoszenia są nowatorskie lub mają znaczenie, co jest ewidentnie nieprawdą; i po drugie, że nowość sama w sobie ma niewzruszona wartość. Każdy, kto stracił pół godziny na niektóre z tych podejrzanych, a nawet absurdalnych prac zgłoszonych – być może – wyłącznie w celu utrzymania ‘publikuj lub zgiń’ kwot, wie, że nowość jest często trywialna, a prace inkrementalne często znaczące.

Zrozumienie wartości nowej pracy obejmuje obszar, w którym sztuczna inteligencja jest obecnie bardzo słaba – długoterminowy kontekst. Ponieważ prace, które wydają się przełomowe, mogą być ujawnione jako mniejsze postępy w oparciu o istniejącą pracę; jednak systemy automatyczne muszą rozwinąć ‘intuicję’ dla takich przypadków, bez flagowania wielu fałszywych pozytywów i bez polegania na uczciwości autorów zgłoszeń.

Spadek etyki

Jak zauważyłem wcześniej, portale takie jak Arxiv są dość odporne na laissez faire pobieranie, a dane, które dostarczają, często nie posiadają szczegółowych danych.

Dlatego nawet gdybym miał zasoby i czas, aby pobrać i wyodrębnić cechy z odpowiednio reprezentatywnej sekcji prac z dziedziny informatyki, wiele z bardziej subtelnych trendów nie będzie celowo analizowanych.

Jednym z nich jest obecność lub brak załączników oświadczeń etycznych; długo obowiązkowym załącznikiem dla nauk biologicznych, które dotykają eksperymentów na zwierzętach, 2024 rok przyniósł apogeum trendu ku etycznemu scharakteryzowaniu proponowanej pracy, na końcu zgłoszonych prac w kategorii informatyki.

Anegdotycznie stwierdzam, że ta praktyka spadła o wiele w 2025 roku. Moja hipoteza jest taka, że gorące starania obecnej administracji USA w celu deregulacji rozwoju sztucznej inteligencji dały społeczności badawczej zarówno w Stanach Zjednoczonych, jak i za granicą, pewną zwiększoną licencję i poczucie implicitej ochrony przed prawnym narażeniem.

Pomimo poparcia dla regulacji przeciwko głębokim fałszerstwom, obecna administracja USA skutecznie przywróciła wiele ze ‘dzikiego zachodu’ postawy, która charakteryzowała erę 2021-23 – nawet jeśli kontekst czystych badań naukowych, który ją definiował, od tego czasu ewoluował w gorące, a nawet historyczne poziomy inwestycji.

Wideo generatywne jako ‘szum AI’

Wraz z uruchomieniem Hunyuan Video i WAN generatywnych serii wideo w zeszłej zimie, sztuczna inteligencja wideo została całkowicie przekształcona w 2025 roku. Stare bariery, takie jak trudność tworzenia pełnych awatarów lub uzyskania przekonywujących widoków profilowych osoby, zostały odsunięte wyraźnie nocą.

Obfite wersje z tymi parametrami z Chin ustanowiły, możliwe, tempo generatywnych wideo w tym roku i są przynajmniej przeciwdziałającym naciskom na tendencję zachodnich architektur sztucznej inteligencji wideo do bycia bardziej cenzurowanymi, skomercjalizowanymi i przepisanymi.

Brak rowu w tej ironicznie demokratycznej scenie prowadzonej przez Chiny doprowadził do setek, jeśli nie tysięcy firm, które próbują wykorzystać powstający rynek inferencyjny, oferując przyjazne dla użytkownika portale, z graczami tak różnymi, jak civit.ai i RunPod, zyskując z procedur i technologii, które w wielu przypadkach mogłyby być uruchomione na domowych komputerach.

Ogólnie, te inicjatywy są krótkoterminowymi chwytem za gotówkę, które oczekują na ostateczne konsolidację rynku (chociaż, bez wątpienia, ich założyciele nie będą przeciwni przypadkowemu natrafieniu na dominujący udział w rynku, jeśli to się zdarzy).

Ten sam szary i powtarzalny charakter dotknął generatywnego łańcucha wideo w zgłoszeniach do Arxiv w 2025 roku. Jak zauważyłem w zeszłym tygodniu, stosunek sygnału do szumu w tej kategorii osiągnął ogłuszający szczyt, gdy badacze konkurują publicznie o ogromne kwoty potencjalnego finansowania, które niewątpliwie uwolniły przełomy tego roku.

Mówiąc ogólnie, ogromna większość zgłoszeń tego rodzaju to zwykłe postępy inkrementalne, co najwyżej. Podstawowe problemy pozostające w generatywnej sztucznej inteligencji nie pojawiły się zbyt wiele w tym roku: potrzeba utrzymania tożsamości, w stylu LoRA, na całym przedstawieniu postaci; potrzeba dłuższych czasów wykonywania dla danych wyjściowych wideo, z ogólną spójnością (tj. środowisk i tematów itp., a nie tylko ID) utrzymaną; i dla ulepszonej generacji audio i manipulacji w ramach generatywnych wideo i architektur edycji wideo; wśród innych.

Gorączka siatki maleje

Zauważyłem w zeszłym roku, że scena doświadczała znacznego wzrostu prac promujących systemy, które wykorzystują tradycyjną grafikę komputerową (tj. reprezentacje siatkowe rodzaju, które sięgają lat 70.), lub włączają ją do ram neuronowych. Zauważyłem znaczne zmniejszenie impetu w kierunku rozwiązań opartych na siatce, szczególnie w drugiej połowie roku, w 2025.

Wiele rozwiązań z tej wcześniejszej fali prac, szczególnie tych dotyczących parametrycznych postaci kontrolnych, takich jak trójwymiarowe modele morficzne, mogło zostać zastąpionych przez nowe możliwości dyfuzyjnych ram generatywnych, takich jak Veo, Kling, Hunyuan i WAN, wśród wielu innych.

Jednocześnie prace zajmujące się podejściami Gaussian Splat wydają się również dotknięte albo stagnacją rozwojową, albo zostały zaćmione przez systemy generatywnej sztucznej inteligencji oparte na dyfuzji w 2025 roku; albo oboje.

Rok temu zauważyłem, że początkowe podekscytowanie GSplat, które zrobiło znaczące wrażenie pod koniec 2023 roku, ustąpiło miejsca węższym kierunkom badań. W tym roku widzę strumień prac skierowanych na rozwiązanie znaczących wymagań zasobowych tego podejścia, wśród innych problemów.

Chociaż mogę scharakteryzować Gaussian Splatting jako ‘obecnie zatrzymany’, powinniśmy pamiętać, że ta technologia sięga wstecz do wczesnych lat 90. i jest rewanżystyczna z natury.

Jednym z wyjątków od tego ogólnego odwrotu od podejść opartych na siatce jest wyraźny wzrost zainteresowania włączaniem sztucznej inteligencji do ram przeznaczonych do drukowania 3D.

Zmniejszenie zgłoszeń z dziedziny bezpieczeństwa

Moja ostatnia obserwacja za 2025 rok jest taka, że kategoria ‘Bezpieczeństwo’ w dziale informatyki na Arxiv wykazała znaczny spadek częstotliwości i jakości w 2025 roku, i nie jest łatwo zgadnąć, dlaczego.

Archiwum Kryptografii i Bezpieczeństwa można uznać za drugorzędne miejsce do publikacji prac, ponieważ ten obszar badań jest niezwykle zdominowany przez własność intelektualną sektora prywatnego – niewiele z tego pojawia się w czasopismach akademickich, a prawie żadne z nich nie jest widoczne na bezpłatnych platformach, takich jak Arxiv.

Ponadto zgłoszenia do tej kategorii na Arxiv mają wyższą niż przeciętna liczbę ‘pułapek’ – niedopowiedzianych przyznania, często ukrytych w nieoczekiwanych miejscach, które negują lub zmniejszają pozorną wartość i nowość pracy. Przykładem mogą być sensacyjne metody naruszenia bezpieczeństwa, które w rzeczywistości opierają się na pewnym ‘białym pudełku’ – tj. uprzywilejowanym dostępie do danych lub procedur, takim, którego atakujący nie mógłby prawdopodobnie zabezpieczyć.

Co oczekiwać w 2026

Chociaż media prześpiewują nieustannie o boomie sztucznej inteligencji jako powtórce bańki internetowej z początku lat 2000 (z pewnymi sprzeciwami), wydaje się to rodzajem fałszywego bezpieczeństwa. Pod względem infrastruktury, inwestycji, kultury i badań nie było takiego czasu w historii ludzkości.

Dlatego trudno powiedzieć, w jakim kierunku scena badawcza będzie się rozwijać w 2026 roku, poza tym, że – jak zwykle – pewna liczba długoterminowych wysiłków zakończy się między teraz a kwietniem, z pewnym ‘znakiem’ obsesji i trendów 2025 roku, który je wyróżnia.

Jednym z rozwojów, które mogą pomóc w kryzysie objętości zgłoszeń na Arxiv i innych portalach, jest zakaz lub kontrola prac generowanych przy pomocy sztucznej inteligencji, tak jak Arxiv niedawno wprowadził dla prac przeglądowych – jednak zakres zaangażowania sztucznej inteligencji w daną pracę może okazać się trudny do określenia, ponieważ sztuczna inteligencja przeniknęła kulturę badawczą (i recenzję) tak bardzo, jak przeniknęła inne dziedziny – jak kropla ‘atramentu’, która wpływa na całą (istniejącą) szklankę wody, zamiast radykalnie zmieniać medium.

 

Pierwotnie opublikowane w poniedziałek, 22 grudnia 2025

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.