Sztuczna inteligencja
DINOv3 i przyszłość widzenia komputerowego: samouczne uczenie na dużą skalę

Etykietowanie obrazów jest kosztownym i czasochłonnym procesem w wielu projektach widzenia komputerowego. Często wprowadza on stronniczość i ogranicza możliwość skalowania dużych zbiorów danych. Dlatego naukowcy szukali podejść, które eliminują potrzebę ciężkiego ręcznego etykietowania. W odpowiedzi na to wyzwanie, Meta AI wprowadziło DINOv3 w 2025 roku. Jest to samouczny model podstawowy widzenia, który może uczyć się bezpośrednio z 1,7 miliarda nieetykietowanych obrazów.
Model jest szkolony z pomocą obszernej sieci nauczyciela o 7 miliardach parametrów. Dzięki tej konfiguracji, produkuje on wysokiej jakości globalne i gęste cechy z jednego zamrożonego szkieletu. W efekcie, model może przechwytywać zarówno drobne szczegóły na obrazach, jak i szersze informacje kontekstowe.
Ponadto, DINOv3 wykazuje silne wyniki w wielu zadaniach widzenia bez potrzeby drogiego dostrajania. Oznacza to, że jest nie tylko potężny z technicznego punktu widzenia, ale także praktyczny dla naukowców, inżynierów i liderów branży, którzy stają w obliczu ograniczeń zasobów i czasu.
W ten sposób, DINOv3 reprezentuje znaczący postęp w widzeniu komputerowym. Łączy on dużej skali uczenie, wydajność i szeroką użyteczność, czyniąc go modelem podstawowym o silnym potencjale zarówno dla badań akademickich, jak i aplikacji przemysłowych.
Ewolucja samoucznego uczenia się w widzeniu
Tradycyjne widzenie komputerowe od dawna opierało się na nadzorowanym uczeniu. Ta metoda wymaga dużych, oznaczonych zbiorów danych, które ludzie starannie anotują. Proces jest kosztowny, powolny i często niepraktyczny w dziedzinach, w których etykiety są rzadkie lub drogie, takich jak obrazowanie medyczne. Z tego powodu samouczne uczenie się (SSL) stało się krytycznym podejściem. Pozwala ono modelom uczyć się użytecznych cech wizualnych bezpośrednio z surowych, nieoznaczonych danych, znajdując ukryte wzory w obrazach.
Wczesne metody SSL, takie jak Momentum Contrast (MoCo) i Bootstrap Your Own Latent (BYOL), wykazały, że modele mogą uczyć się silnych cech wizualnych bez oznaczonych danych. Te metody udowodniły wartość samoucznego uczenia się i otworzyły drogę do bardziej zaawansowanych podejść.
W 2021 roku, Meta wprowadziło DINO. Był to znaczący krok, ponieważ osiągnął on konkurencyjne wyniki, używając tylko samoucznego szkolenia. Później, DINOv2 dalej posunął ten postęp, skalując szkolenie i zwiększając przenoszalność nauczonej cechy do różnych zadań.
Te ulepszenia stworzyły podstawę dla DINOv3, wydanego w 2025 roku. DINOv3 wykorzystywał znacznie większy model i ogromny zbiór danych, umożliwiając mu ustanowienie nowych benchmarków wyników.
Do 2025 roku, SSL nie było już opcjonalne. Stało się koniecznym podejściem, ponieważ umożliwiło szkolenie na miliardach obrazów bez ludzkiego oznaczania. To umożliwiło budowę modeli podstawowych, które generalizują się na wiele zadań. Ich wstępnie wytrenowane szkielety zapewniają elastyczne cechy, które można dostosować, dodając małe, zadaniowe głowy. Ten sposób redukuje koszty i przyspiesza rozwój systemów widzenia komputerowego.
Ponadto, SSL redukuje cykle badań. Zespoły mogą ponownie wykorzystywać wstępnie wytrenowane modele do szybkiego testowania i oceny, co pomaga w szybkim prototypowaniu. Ten ruch w kierunku dużej skali i wydajnego uczenia się zmienia, w jaki sposób systemy widzenia komputerowego są budowane i stosowane w wielu branżach.
Jak DINOv3 zmienia samouczne widzenie komputerowe
DINOv3 jest najbardziej zaawansowanym samoucznym modelem podstawowym widzenia Meta AI. Reprezentuje nowy etap w dużej skali szkolenia dla widzenia komputerowego. W przeciwieństwie do wcześniejszych wersji, łączy on obszerną sieć nauczyciela o 7 miliardach parametrów z szkoleniem na 1,7 miliardzie nieoznaczonych obrazów. Ta skala pozwala modelowi nauczyć się silniejszych i bardziej adaptowalnych cech.
Jednym z istotnych ulepszeń w DINOv3 jest stabilność gęstego uczenia się cech. Poprzednie modele, takie jak DINOv2, często traciły szczegóły w cechach na poziomie patchów podczas długiego szkolenia. To sprawiało, że zadania, takie jak segmentacja i estymacja głębi, były mniej niezawodne. DINOv3 wprowadza metodę zwaną Gram Anchoring, aby rozwiązać ten problem. Utrzymuje on strukturę podobieństwa między patchami w trakcie szkolenia, co zapobiega kolapsowi cech i zachowuje drobne szczegóły.
Innym technicznym krokiem jest użycie wysokiej rozdzielczości wycinków obrazów. Pracując z większymi fragmentami obrazu, model przechwytuje lokalną strukturę bardziej dokładnie. To skutkuje gęstymi mapami cech, które są bardziej szczegółowe i nuansowane. Takie mapy poprawiają wyniki w aplikacjach, w których dokładność na poziomie pikseli jest kluczowa, takich jak wykrywanie obiektów lub segmentacja semantyczna.
Model korzysta również z obrotowych osadzeń pozycyjnych (RoPE). Te osadzenia, w połączeniu z strategiami rozdzielczości i wycinania, umożliwiają modelowi radzenie sobie z obrazami o różnych rozmiarach i kształtach. To sprawia, że DINOv3 jest bardziej stabilny w scenariuszach rzeczywistych, w których obrazy wejściowe często różnią się jakością i formatem.
Aby wesprzeć różne potrzeby wdrożeniowe, Meta AI destylowało DINOv3 w rodzinę mniejszych modeli. Obejmują one kilka rozmiarów Vision Transformer (ViT) i wersji ConvNeXt. Mniejsze modele są lepiej dostosowane do urządzeń brzegowych, podczas gdy większe są bardziej odpowiednie do badań lub serwerów. Ta elastyczność pozwala DINOv3 być stosowanym w różnych środowiskach bez znaczącej utraty wydajności.
Wyniki potwierdzają siłę tego podejścia. DINOv3 osiąga najlepsze wyniki w ponad sześćdziesięciu benchmarkach. Wykonuje się dobrze w klasyfikacji, segmentacji, estymacji głębi i nawet zadaniach 3D. Większość z tych wyników osiągana jest z zamrożonym szkieletem, co oznacza, że nie było potrzeby dodatkowego dostrajania.
Wyniki i wyższość benchmarkowa
DINOv3 ustanowiło się jako niezawodny model podstawowy widzenia. Osiągnął silne wyniki w wielu zadaniach widzenia komputerowego. Jedną z koniecznych sił jest to, że jego zamrożony szkielet już przechwycił bogate cechy. W efekcie, większość aplikacji wymaga tylko liniowego sondowania lub lekkiego dekodera. To sprawia, że transfer jest szybszy, mniej kosztowny i łatwiejszy niż pełne dostrajanie.
Na klasyfikacji ImageNet-1K, DINOv3 osiągnął około 84,5% najwyższej dokładności z zamrożonymi cechami. To było wyższe niż wiele wcześniejszych samoucznych modeli i również lepsze niż kilka nadzorowanych baz. Dla segmentacji semantycznej na ADE20K, osiągnął mIoU około 63,0, używając szkieletu ViT-L. Te wyniki pokazują, że model zachowuje drobne informacje przestrzenne bez zadaniowego szkolenia.
W wykrywaniu obiektów na COCO, DINOv3 osiągnął mAP około 66,1 z zamrożonymi cechami. To demonstruje siłę jego gęstych reprezentacji w identyfikowaniu obiektów w złożonych scenach. Model również wykonał się dobrze w estymacji głębi, na przykład na NYU-Depth V2, gdzie wyprodukował bardziej dokładne przewidywania niż wiele starszych nadzorowanych i samoucznych metod.
Ponadto, DINOv3 wykazał silne wyniki w klasyfikacji drobnoziarnistej i testach poza dystrybucją. W wielu przypadkach przewyższył zarówno wcześniejsze modele SSL, jak i tradycyjne nadzorowane szkolenie.
Podczas eksperymentów, jednym z wyraźnych korzyści było niskie koszty transferu. Większość zadań została rozwiązana z tylko nieznacznym dodatkowym szkoleniem. To zmniejszyło obliczenia i skróciło czas wdrożenia.
Meta AI i inni naukowcy zwalidowali DINOv3 na ponad 60 benchmarkach. Obejmowały one klasyfikację, segmentację, wykrywanie, estymację głębi, odzyskiwanie i dopasowanie geometryczne. Przez cały ten zakres ocen, model konsekwentnie dostarczał wyniki na poziomie stanu techniki lub bliskie stanu techniki. To potwierdza jego rolę jako wszechstronnego i godnego zaufania kodera wizualnego.
Jak DINOv3 przekształcił przepływy pracy widzenia komputerowego
W starszych przepływach pracy, zespoły musiały trenować wiele modeli specyficznych dla zadań. Każde zadanie wymagało własnego zestawu danych i dostrajania. To zwiększało koszty i wysiłek konserwacyjny.
Z DINOv3, zespoły mogą teraz standaryzować się na jednym szkielecie. Ten sam zamrożony model wspiera różne zadaniowe głowy. To redukuje liczbę modeli podstawowych w użyciu. Uproszcza również potoki integracyjne i skraca cykle wydawnicze dla funkcji widzenia.
Dla deweloperów, DINOv3 zapewnia praktyczne zasoby. Meta AI oferuje punkty kontrolne, skrypty szkoleniowe i karty modeli na GitHub. Hugging Face również hostuje destylowane warianty z przykładowymi notesami. Te zasoby ułatwiają eksperymentowanie i przyjmowanie modelu w rzeczywistych projektach.
Typowy sposób, w jaki deweloperzy korzystają z tych zasobów, to ekstrakcja cech. Zamrożony model DINOv3 dostarcza osadzeń, które służą jako dane wejściowe dla zadań pośrednich. Deweloperzy mogą następnie dołączyć liniową głowę lub mały adapter, aby rozwiązać konkretną potrzebę. Gdy wymagana jest dalsza adaptacja, metody efektywne pod względem parametrów, takie jak LoRA lub lekkie adaptery, umożliwiają dostrajanie bez znacznego obciążenia obliczeniowego.
Destylowane warianty odgrywają istotną rolę w tym przepływie pracy. Mniejsze wersje mogą działać na urządzeniach o ograniczonej pojemności, podczas gdy większe są bardziej odpowiednie do laboratoriów badawczych i serwerów produkcyjnych. Ta elastyczność pozwala zespołom na szybkie rozpoczęcie testowania i rozwijania się do bardziej wymagających konfiguracji w miarę potrzeb.
Łącząc ponownie wykorzystywane punkty kontrolne, proste głowy szkoleniowe i skalowalne rozmiary modeli, DINOv3 zmienia przepływy pracy widzenia komputerowego. Redukuje koszty, skraca cykle szkoleniowe i czyni użycie modeli podstawowych bardziej praktycznym w branżach.
Specyficzne dla domeny aplikacje DINOv3
Istnieje kilka dziedzin, w których DINOv3 może być potencjalnie wykorzystany:
Obrazowanie medyczne
Dane medyczne często nie posiadają wyraźnych etykiet, a anotacja ekspertów jest czasochłonna i kosztowna. DINOv3 może pomóc, produkując gęste cechy, które przenoszą się dobrze do zadań patologii i radiologii. Na przykład, badanie dostroiło DINOv3 z adapterami o niskim rzędzie do klasyfikacji postaci mitotycznych, osiągając dokładność zbalansowaną 0,8871 z minimalną liczbą parametrów trenowalnych. To pokazało, że wysokiej jakości wyniki są możliwe nawet z ograniczonymi danymi oznaczonymi. Prostsze głowy mogą być również wykorzystywane do wykrywania anomalii, redukując potrzebę dużych, oznaczonych zbiorów danych klinicznych. Jednak wdrożenie kliniczne wymaga jeszcze ścisłej weryfikacji.
Obrazowanie satelitarne i geoprzestrzenne
Meta wytrenowało warianty DINOv3 na dużym korpusie około 493 milionów wycinków satelitarnych. Te modele poprawiły estymację wysokości baldachimu i zadania segmentacji. W niektórych przypadkach, destylowany satelitarny ViT-L nawet dopasował lub przewyższył pełnego 7B nauczyciela. To potwierdziło wartość samoucznego szkolenia specyficznego dla domeny. Podobnie, praktycy mogą wstępnie trenować DINOv3 na danych domenowych lub dostroić destylowane warianty, aby zmniejszyć koszty oznaczania w teledetekcji.
Pojazdy autonomiczne i robotyka
Cechy DINOv3 wzmacniają moduły percepcyjne dla pojazdów i robotów. Poprawiają one wykrywanie i korelację w różnych warunkach pogodowych i oświetleniowych. Badania wykazały, że szkielety DINOv3 wspierają polityki visuomotoryczne i kontrolery dyfuzji, skutkując poprawioną efektywnością próbkowania i wyższymi wskaźnikami sukcesu w zadaniach manipulacji robotycznej. Zespoły robotyczne mogą stosować DINOv3 do percepcji, ale powinny łączyć go z danymi domenowymi i starannym dostrajaniem dla systemów krytycznych pod względem bezpieczeństwa.
Handel detaliczny i logistyka
W środowiskach biznesowych, DINOv3 może wspierać kontrolę jakości i systemy inwentaryzacji wizualnej. Dostosowuje się on do różnych linii produktów i konfiguracji kamery, redukując potrzebę ponownego trenowania na produkt. To sprawia, że jest on praktyczny dla szybko rozwijających się branż z różnorodnymi środowiskami wizualnymi.
Wyzwania, stronniczość i droga do przodu
Trenowanie modeli podstawowych widzenia, takich jak DINOv3, w skali 7 miliardów parametrów wymaga ogromnych zasobów obliczeniowych. To ogranicza pełne wstępne trenowanie do kilku dobrze finansowanych organizacji. Destylacja redukuje koszt inferencji i pozwala na wdrożenie mniejszych modeli uczniowskich. Jednak nie usuwa pierwotnego kosztu wstępnego trenowania. Z tego powodu, większość naukowców i inżynierów opiera się na publicznie udostępnionych punktach kontrolnych, zamiast trenować takie modele od podstaw.
Innym krytycznym wyzwaniem jest stronniczość zbioru danych. Duże kolekcje obrazów zebrane z Internetu często odzwierciedlają regionalne, kulturowe i społeczne nierównowagi. Modele trenowane na nich mogą dziedziczyć lub nawet zwiększać te stronniczości. Nawet gdy zamrożone szkielety są wykorzystywane, dostrajanie może ponownie wprowadzić dysproporcje między grupami. Dlatego, audyt zbioru danych, kontrole sprawiedliwości i staranna ocena są konieczne przed wdrożeniem. Kwestie etyczne mają również zastosowanie do licencjonowania i praktyk wydawniczych. Otwarte modele powinny być dostarczane z wyraźnymi wytycznymi użytkowania, uwagami bezpieczeństwa i ocenami prawnymi, aby wspierać odpowiedzialne przyjęcie.
Podsumowanie
Ponieważ jego zamrożone cechy przenoszą się dobrze, wspiera zadania, takie jak klasyfikacja, segmentacja, wykrywanie i estymacja głębi, z niewielkim dodatkowym szkoleniem. Równocześnie, destylowane warianty czynią model wystarczająco elastycznym, aby działać zarówno na lekkich urządzeniach, jak i potężnych serwerach. Te siły mają praktyczne zastosowania w różnych dziedzinach, w tym opiece zdrowotnej, monitorowaniu geoprzestrzennym, robotyce i handlu detalicznym.
Jednakże, intensywne obliczenia potrzebne do wstępnego trenowania i ryzyko stronniczości zbioru danych pozostają ciągłymi wyzwaniami. Dlatego przyszły postęp zależy od połączenia możliwości DINOv3 z staranną weryfikacją, monitorowaniem sprawiedliwości i odpowiedzialnym wdrożeniem, zapewniając niezawodne użycie w badaniach i przemyśle.












