Kontakt z nami

Osobiste spojrzenie na trendy w literaturze poświęconej wizji komputerowej w 2025 r.

Kąt Andersona

Osobiste spojrzenie na trendy w literaturze poświęconej wizji komputerowej w 2025 r.

mm
Obraz wygenerowany przez sztuczną inteligencję (gpt-image-1 za pośrednictwem ChatGPT-5.2) przedstawia stylizowaną ilustrację izometryczną naukowców w białych fartuchach pracujących w laboratorium komputerowym.

Ujawnianie informacji etycznych i rozkład Gaussa stają się coraz rzadsze, a ogromna liczba nadesłanych prac naukowych stanowi nowy problem, z którym AI będzie musiała się zmierzyć w roku 2026.

 

Opinia Śledzę badania nad komputerowym widzeniem i syntezą obrazu w arXiv i pokrewnych platformach od około siedmiu lat, w różnych mediach – wystarczająco długo, aby dostrzec powtarzające się wzorce i zmiany trendów. Jednak te obserwacje są anegdotyczne. Szczerze mówiąc, żałuję, że nie mam czasu, aby wykorzystać ogromny zbiór stale rosnących danych reprezentowanych przez sam strumień publikacji Arxiv, który z pewnością jest bogaty w ukryte spostrzeżenia, za pomocą analizy uczenia maszynowego. W obecnej sytuacji mogę jedynie relacjonować w sposób bardziej ogólny to, co zwróciło moją uwagę. odkąd ostatnio rozważałem tę kwestię.

Głośność na poziomie 11

Wiele trendów w pracach badawczych dotyczących sztucznej inteligencji, które zaobserwowałem w 2024 r., stało się stałymi trendami w 2025 r.; jednym z najważniejszych jest nieubłagany i ciągły wzrost Tom artykułów związanych ze sztuczną inteligencją, które same w sobie są napędzane przez sztuczną inteligencję, do tego stopnia, że postrzegany kryzys:

Miesięczne zgłoszenia do Arxiv z dziedziny informatyki, październik 2023–listopad 2025, z nałożoną średnią kroczącą z 3 miesięcy. Źródło: https://arxiv.org/stats/monthly_submissions

Miesięczne zgłoszenia do Arxiv z zakresu informatyki, październik 2023 r. – listopad 2025 r., z nałożoną średnią kroczącą z 3 miesięcy. Źródło

Tempo wzrostu charakteryzowało się wykładniczym podwojeniem liczby przesyłanych prac z zakresu sztucznej inteligencji, Kilka lat temui dopiero niedawno pojawiło się w nim coś głębszego Mania inwestycyjna w AI podniosło stawkę i zwiększyło ilość środków dostępnych na badania związane ze sztuczną inteligencją.

Pełne statystyki za rok 2025 nie są jeszcze dostępne, a przedstawione powyżej zbiorcze statystyki przedstawiają ogólny wzrost we wszystkich kategoriach. Poniżej widać, że informatyka nadal utrzymuje dominujący trend, znacznie przewyższając swoje poprzedniczki:

Wzrost liczby zgłoszeń CS w latach 2022-2025. Źródło - https://info.arxiv.org/about/reports/submission_category_by_year.html

Wzrost liczby zgłoszeń CS w latach 2022–2025. Źródło

Sortowanie plew

W październiku, wraz z rozpoczęciem sezonu konferencji jesiennych, który zawsze przynosi falę nowych badań, zamiast tego nastąpił Objętość zgłoszeń na poziomie ataku DOS, nadając dodatkowy impuls i pilną potrzebę dotychczas niedostatecznie subskrybowanego nurtu badawczego analiza trendów badawczych; innymi słowy, pojawia się coraz więcej dokumentów i repozytoriów, które same w sobie mają na celu zniwelowanie pogarszającego się stosunku sygnału do szumu w środowisku badawczym.

Ostatni pojawił się dopiero w zeszłym tygodniu w formie NoveltyRank, A papier oraz Repozytorium GitHub który dostraja LLM-y, takie jak Qwen3-4B-Instrukcja-2507 oraz SciBERT aby mogli przeprowadzić binarną klasyfikację przesłanych prac (przewidując „nowość” na podstawie wcześniejszych przesłań) lub też dokonać parami porównania nowości (porównując bieżące przesłania pod kątem „nowości”):

System NoveltyRank porównuje tytuł i streszczenie pracy z podobnymi, wcześniejszymi pracami, podsumowuje różnice za pomocą LLM i przekazuje je do precyzyjnie dostrojonego modelu Qwen3-4B, który decyduje, czy praca jest „nowa koncepcyjnie”. Źródło - https://arxiv.org/pdf/2512.14738

System NoveltyRank porównuje tytuł i streszczenie pracy do podobnych wcześniejszych prac, podsumowuje różnice za pomocą LLM i przekazuje wyniki do udoskonalonego modelu Qwen3-4B, który decyduje, czy praca jest „koncepcyjnie nowa”. Źródło

Problemem takich podejść „przesiewających” jest wyzwanie definiowanie znaczących zmiennychPodejście NoveltyRank wykorzystuje akceptację artykułu na konferencji jako wskaźnik nowości i – być może raczej lekceważąco – wykorzystuje publikację Arxiv jako wskaźnik tła ujemny nowość.

Zakłada to dwa fałszywe założenia: po pierwsze, że wszystkie prace zaakceptowane przez konferencję są nowatorskie lub istotne, co ewidentnie nie jest prawdą; a po drugie, że sama nowość ma bezwarunkową wartość. Każdy, kto zmarnował pół godziny na niektóre z pozornie absurdalnych, a nawet absurdalnych prac zgłoszonych – być może – tylko po to, by utrzymać… kwoty „publikuj albo giń”, będzie wiedział, że nowość jest często błaha, a praca dodatkowa często znacząca.

Zrozumienie wartości nowego artykułu wiąże się z obszarem, w którym obecnie znajduje się sztuczna inteligencja bardzo słaby – długoterminowe kontekstZe względu na często nieszczery sposób pisania, prace, które wydają się przełomowe, bardzo często mogą okazać się drobnymi postępami w stosunku do istniejących prac; jednak zautomatyzowane systemy będą musiały wykształcić „intuicję” w takich przypadkach, bez sygnalizowania wielu fałszywych wyników i bez polegania na uczciwości autorów nadsyłających prace.

Etyczny skok

Tak jak ja obserwowane wcześniej, portale takie jak Arxiv są dość odporne na laissez faire scrapingu, a dostarczane przez nich zrzuty danych często nie zawierają szczegółowych informacji.

Dlatego nawet gdybym dysponował zasobami i czasem, aby pobrać i wyodrębnić cechy z odpowiednio reprezentatywnej grupy prac naukowych z zakresu informatyki, wiele bardziej subtelnych trendów nie zostałoby wziętych pod uwagę ani przeanalizowanych.

Jednym z nich jest obecność lub brak załączniki do oświadczenia etycznego; długi obowiązkowe włączenie w przypadku nauk biologicznych, które poruszają tematykę eksperymentów na zwierzętach, w 2024 r. nastąpił szczyt tendencji zmierzającej do etycznej charakterystyki proponowanej pracy, pod koniec zgłoszeń w kategorii Informatyka.

Anegdotycznie rzecz biorąc, twierdzę, że praktyka ta popadła w przepaść w 2025 roku. Przypuszczam, że gorliwe wysiłki obecnego rządu USA na rzecz deregulacji w odniesieniu do rozwoju sztucznej inteligencji dały środowisku naukowemu, zarówno w Stanach Zjednoczonych, jak i za granicą, pewną większą swobodę i poczucie ukrytej ochrony przed konsekwencjami prawnymi.

Pomimo tego wsparcie jeśli chodzi o regulacje dotyczące deepfake'ów, obecna administracja USA skutecznie przywróciła w dużej mierze postawę „Dzikiego Zachodu”, która charakteryzowała erę 2021–23 – mimo że kontekst czysto naukowych badań, który ją definiował, ewoluował od tego czasu i osiągnął gorączkowe, wręcz historyczne poziomy inwestycji.

Generatywne artykuły wideo jako „sztuczna inteligencja”

Wraz z uruchomieniem Hunyuan Wideo i WAN generatywnych serii wideo w ciągu ostatniej zimy, wideo AI zostało całkowicie przekształcone w 2025 roku. Stare przeszkody, takie jak trudność tworzenia awatarów przedstawiających całą sylwetkęlub z uzyskanie przekonujących wyświetleń profilu człowieka, zostały porwane, najwyraźniej w ciągu nocy.

Obfite wydania tego typu z Chin, zawierające duże ilości substancji, mają prawdopodobnie, wyznaczają tempo publikacji generatywnych materiałów wideo w tym roku i stanowią co najmniej przeciwdziałającą presję na tendencję zachodnich architektur wideo opartych na sztucznej inteligencji do bycia znacznie bardziej cenzurowanymi, wstępnie skomercjalizowanymi i regulowanymi.

brak fosy na tej ironicznie demokratycznej scenie kierowanej przez CCCP doprowadziło do tego, że setki, jeśli nie tysiące firm stara się wykorzystać rodzący się rynek wnioskowania, oferując przyjazne dla użytkownika portale, z tak różnorodnymi graczami, jak civit.ai oraz RunPod korzystając z procedur i technologii, które w wielu przypadkach można uruchomić na komputerach domowych.

Ogólnie rzecz biorąc, inicjatywy te stanowią krótkoterminowy sposób na zarobienie pieniędzy, który – jak się spodziewają – zostanie przejęty przez ostateczną konsolidację rynku (choć niewątpliwie ich założyciele nie mieliby nic przeciwko przypadkowemu zdobyciu dominującego udziału w rynku, gdyby tak się stało).

Ta sama powszechność i powtarzalność dotknęła generatywnego wątku wideo w materiałach Arxiv z 2025 r. Jak ja obserwowane w zeszłym tygodniustosunek sygnału do szumu w tej kategorii osiągnął niepokojący poziom, gdyż naukowcy publicznie rywalizują o ogromne kwoty potencjalnych funduszy, które niewątpliwie zostaną udostępnione dzięki tegorocznym przełomowym odkryciom.

Mimo to zdecydowana większość zgłoszeń tego rodzaju to w najlepszym razie jedynie drobne postępy. Główne problemy, które wciąż istnieją w generatywnej sztucznej inteligencji, nie ujawniły się w tym roku: potrzeba zachować tożsamość, Styl LoRA, w całym przedstawieniu postaci; potrzeba dłuższego czasu trwania filmów wyjściowych, przy zachowaniu ogólnej spójności (tj. środowisk i motywów itp., a nie tylko identyfikatora); i dla ulepszeń generacja dźwięku i manipulacji w ramach architektury generatywnego wideo i edycji wideo; między innymi.

Gorączka siatkowa ustępuje

W zeszłym roku zauważyłem, że na scenie nastąpił znaczny wzrost liczby artykułów promujących systemy wykorzystujące tradycyjne CGI (tj. reprezentacje oparte na siatce tego rodzaju, które pochodzą z lat 1970. XX wieku) lub włączyć go do struktur neuronowych. Zaobserwowałem znaczny spadek zainteresowania rozwiązaniami opartymi na siatce, zwłaszcza w drugiej połowie roku, w perspektywie roku 2025.

Wiele rozwiązań wykorzystujących CGI w tej wcześniejszej fali prac, zwłaszcza tych dotyczących parametrycznych postaci „kontroli” człowieka, takich jak Modele 3D z możliwością morfingu, mogły zostać wyparte przez nowe możliwości generatywnych ram opartych na dyfuzji, takich jak Veo, Kling, Hunyuan i WAN, i wiele innych.

W tym samym czasie ukazały się dokumenty dotyczące Rozprysk Gaussa Podejścia te zostały najwyraźniej dotknięte albo przez stagnację rozwojową, albo przez przyćmienie przez systemy sztucznej inteligencji oparte na dyfuzji, które mają powstać w 2025 r.; lub przez oba te czynniki.

Rok temu zauważyłem, że początkowe podekscytowanie związane z GSplat, które wywołało zauważalne wrażenie pod koniec 2023 r., zeszło na węższe kierunki badań. W tym roku widzę strumień artykułów mających na celu rozwiązanie, między innymi, znacznych wymagań zasobowych tego podejścia.

Chociaż określiłbym Gaussian Splatting jako technologię „obecnie wstrzymaną”, powinniśmy pamiętać, że jest to technologia pochodząca z początku lat 1990. i z natury rzeczy powracająca.

Wyjątkiem od tej powszechnej tendencji odchodzenia od podejść bazujących na siatce jest wyraźny wzrost zainteresowania włączeniem sztucznej inteligencji do struktur ukierunkowanych na druk 3D.

Spadek liczby zgłoszeń dotyczących bezpieczeństwa sztucznej inteligencji

Moje ostatnie spostrzeżenie na rok 2025 jest takie, że kategoria zgłoszeń „Bezpieczeństwo” w dziale Informatyka na portalu Arxiv odnotowała znaczny spadek częstotliwości i jakości w roku 2025 i trudno zgadnąć, dlaczego.

Kryptografia i bezpieczeństwo Archiwum było prawdopodobnie zawsze drugorzędnym miejscem do publikowania artykułów, ponieważ ten nurt badań jest zdominowany, co nie dziwi, przez zastrzeżoną własność intelektualną sektora prywatnego – niewiele z nich pojawia się w czasopismach naukowych, a prawie nic na darmowych platformach, takich jak Arxiv.

Ponadto, zgłoszenia do tej kategorii w Arxiv charakteryzują się ponadprzeciętną liczbą „haczyków” – niedopowiedzianych stwierdzeń, często ukrytych w nieoczekiwanych miejscach, które negują lub umniejszają pozorną wartość i nowość artykułu. Przykładem może być pozornie sensacyjna metoda naruszenia bezpieczeństwa, która w rzeczywistości opiera się na pewnym aspekcie „białej skrzynki” – tj. uprzywilejowanym dostępie do danych lub procedur, których atakujący prawdopodobnie nie byłby w stanie zabezpieczyć.

Czego się spodziewać w 2026 roku

Chociaż media są riffowanie stale o boomie na sztuczną inteligencję generacji jako powtórzeniu katastrofy boomu i upadku dot-comów z początku XXI wieku (z niektórzy się nie zgadzają), to w rzeczywistości wydaje się być rodzajem fałszywego poczucia bezpieczeństwa. Jeśli chodzi o infrastrukturę, inwestycje, kulturę oraz Według badań naukowych, w historii ludzkości nie było takiego okresu.

Trudno zatem przewidzieć, w jakim kierunku będzie podążać scena badawcza w 2026 r., z wyjątkiem tego, że – jak zwykle – szereg długoterminowych wysiłków osiągnie punkt kulminacyjny między teraz a kwietniem, a wyróżniają je pewne „piętno” obsesji i trendów z 2025 r.

Jednym z rozwiązań, które może pomóc w rozwiązaniu kryzysu związanego z ilością nadsyłanych prac na Arxiv i innych portalach, jest zakaz lub kontrola artykułów generowanych/wspomaganych przez sztuczną inteligencję, ponieważ Arxiv niedawno uchwalił przepisy dotyczące artykułów przeglądowych – jednakże stopień zaangażowania sztucznej inteligencji w jakikolwiek pojedynczy artykuł może okazać się trudny do oszacowania, ponieważ sztuczna inteligencja ma przeniknięta kultura badawcza (I peer review) w takim samym stopniu, w jakim wkroczyło na inne obszary – jak kropla „atramentu”, która wpływa na całą (istniejącą) szklankę wody, zamiast radykalnie zmieniać medium.

 

Pierwsze opublikowanie w poniedziałek, 22 grudnia 2025 r.

Autor tekstów o uczeniu maszynowym, specjalista domenowy w syntezie obrazów ludzkich. Były szef treści badawczych w Metaphysic.ai.
Strona osobista: martinanderson.ai
Kontakt: [email chroniony]
Twitter: @manders_ai