Trí tuệ nhân tạo

DINOv3 và Tương lai của Thị giác Máy tính: Học tự giám sát ở Quy mô Lớn

Đã xuất bản 20 tháng 10, 2025

Đã cập nhật 17 tháng 5, 2026

Dr. Assad Abbas

DINOv3 and the Future of Computer Vision: Self-Supervised Learning at Scale

Gán nhãn cho hình ảnh là một quá trình tốn kém và chậm trong nhiều dự án thị giác máy tính. Nó thường giới thiệu sự thiên vị và giảm khả năng mở rộng các tập dữ liệu lớn. Do đó, các nhà nghiên cứu đã tìm kiếm các phương pháp loại bỏ nhu cầu gán nhãn thủ công nặng. Để đáp ứng thách thức này, Meta AI đã giới thiệu DINOv3 vào năm 2025. Đây là một mô hình nền tảng thị giác tự giám sát có thể học trực tiếp từ 1,7 tỷ hình ảnh không có nhãn.

Mô hình này được đào tạo với một mạng lưới giáo viên rộng lớn có 7 tỷ tham số. Thông qua thiết lập này, nó tạo ra các tính năng toàn cầu và dày đặc chất lượng cao từ một xương sống đóng băng đơn. Kết quả là, mô hình có thể bắt cả chi tiết tinh tế trong hình ảnh và thông tin ngữ cảnh rộng lớn hơn.

Hơn nữa, DINOv3 thể hiện hiệu suất mạnh mẽ trên nhiều nhiệm vụ thị giác mà không cần tinh chỉnh tốn kém. Điều này có nghĩa là nó không chỉ mạnh mẽ từ góc độ kỹ thuật mà còn thực tế cho các nhà nghiên cứu, kỹ sư và lãnh đạo ngành công nghiệp phải đối mặt với các hạn chế về tài nguyên và thời gian.

Theo cách này, DINOv3 đại diện cho một bước tiến đáng kể trong lĩnh vực thị giác máy tính. Nó kết hợp học tập quy mô lớn, hiệu quả và khả năng sử dụng rộng rãi, khiến nó trở thành một mô hình nền tảng có tiềm năng mạnh mẽ cho cả nghiên cứu học thuật và ứng dụng công nghiệp.

Sự Phát triển của Học tự giám sát trong Thị giác

Thị giác máy tính truyền thống đã phụ thuộc vào học có giám sát trong một thời gian dài. Phương pháp này yêu cầu các tập dữ liệu lớn có nhãn mà con người phải chú thích cẩn thận. Quá trình này tốn kém, chậm và thường không thực tế trong các lĩnh vực mà nhãn hiếm hoặc đắt, như hình ảnh y tế. Vì lý do này, Học tự giám sát (SSL) đã trở thành một phương pháp quan trọng. Nó cho phép các mô hình học các tính năng thị giác hữu ích trực tiếp từ dữ liệu thô không có nhãn bằng cách tìm kiếm các mẫu ẩn trong hình ảnh.

Các phương pháp SSL sớm, như Momentum Contrast (MoCo) và Bootstrap Your Own Latent (BYOL), đã chứng minh rằng các mô hình có thể học các tính năng thị giác mạnh mẽ mà không cần dữ liệu có nhãn. Các phương pháp này đã chứng minh giá trị của việc tự giám sát và mở đường cho các phương pháp tiên tiến hơn.

Vào năm 2021, Meta đã giới thiệu DINO. Đây là một bước tiến quan trọng vì nó đạt được hiệu suất cạnh tranh bằng cách sử dụng chỉ đào tạo tự giám sát. Sau đó, DINOv2 đã tiến bộ hơn nữa bằng cách mở rộng quy mô đào tạo và tăng cường khả năng chuyển giao của các tính năng đã học sang các nhiệm vụ khác.

Các cải tiến này đã tạo nền tảng cho DINOv3, được phát hành vào năm 2025. DINOv3 đã tận dụng một mô hình lớn hơn đáng kể và một tập dữ liệu khổng lồ, cho phép nó thiết lập các điểm chuẩn hiệu suất mới.

Đến năm 2025, SSL không còn là một phương pháp tùy chọn. Nó đã trở thành một phương pháp cần thiết vì nó cho phép đào tạo trên hàng tỷ hình ảnh mà không cần gán nhãn thủ công. Điều này đã làm cho việc xây dựng các mô hình nền tảng trở nên khả thi, những mô hình này có thể tổng quát hóa trên nhiều nhiệm vụ. Các xương sống đã được đào tạo trước cung cấp các tính năng linh hoạt, có thể được thích nghi bằng cách thêm các đầu nhiệm vụ cụ thể nhỏ. Phương pháp này giảm chi phí và tăng tốc độ phát triển của các hệ thống thị giác máy tính.

Ngoài ra, SSL giảm các chu kỳ nghiên cứu. Các nhóm có thể tái sử dụng các mô hình đã được đào tạo trước để thử nghiệm và đánh giá nhanh, giúp trong việc tạo mẫu nhanh. Sự chuyển dịch này hướng tới học tập quy mô lớn và hiệu quả về nhãn đang thay đổi cách các hệ thống thị giác máy tính được xây dựng và áp dụng trên nhiều ngành công nghiệp.

Làm thế nào DINOv3 Định nghĩa lại Học tự giám sát trong Thị giác Máy tính

DINOv3 là mô hình nền tảng thị giác tự giám sát tiên tiến nhất của Meta AI. Nó đại diện cho một giai đoạn mới trong đào tạo quy mô lớn cho thị giác máy tính. Không giống như các phiên bản trước, nó kết hợp một mạng lưới giáo viên rộng lớn với 7 tỷ tham số và đào tạo trên 1,7 tỷ hình ảnh không có nhãn. Quy mô này cho phép mô hình học các tính năng mạnh mẽ và linh hoạt hơn.

Một cải tiến quan trọng trong DINOv3 là sự ổn định của việc học tính năng dày đặc. Các mô hình trước, như DINOv2, thường mất chi tiết trong các tính năng cấp đoạn trong quá trình đào tạo dài. Điều này làm cho các nhiệm vụ như phân đoạn và ước tính độ sâu trở nên kém tin cậy hơn. DINOv3 giới thiệu một phương pháp gọi là Gram Anchoring để giải quyết vấn đề này. Nó giữ cấu trúc tương似 giữa các đoạn nhất quán trong quá trình đào tạo, ngăn chặn sự sụp đổ của tính năng và bảo tồn các chi tiết tinh tế.

Một bước tiến kỹ thuật khác là việc sử dụng các đoạn hình ảnh có độ phân giải cao. Bằng cách làm việc với các đoạn hình ảnh lớn hơn, mô hình bắt được cấu trúc cục bộ một cách chính xác hơn. Điều này dẫn đến các bản đồ tính năng dày đặc chi tiết và tinh tế hơn. Các bản đồ như vậy tăng cường hiệu suất trong các ứng dụng mà độ chính xác cấp pixel là quan trọng, như phát hiện đối tượng hoặc phân đoạn ngữ nghĩa.

Mô hình cũng được lợi từ việc sử dụng Rotary Positional Embeddings (RoPE). Các bản nhúng này, kết hợp với chiến lược độ phân giải và cắt, cho phép mô hình xử lý hình ảnh với các kích thước và hình dạng khác nhau. Điều này làm cho DINOv3 ổn định hơn trong các kịch bản thế giới thực, nơi hình ảnh đầu vào thường thay đổi về chất lượng và định dạng.

Để hỗ trợ các nhu cầu triển khai khác nhau, Meta AI đã chưng cất DINOv3 thành một họ các mô hình nhỏ hơn. Những mô hình này bao gồm các kích thước khác nhau của Vision Transformer (ViT) và các phiên bản ConvNeXt. Các mô hình nhỏ hơn phù hợp hơn với các thiết bị cạnh, trong khi các mô hình lớn hơn vẫn phù hợp cho nghiên cứu hoặc sử dụng máy chủ. Sự linh hoạt này cho phép các nhóm áp dụng mô hình trong các môi trường khác nhau mà không mất nhiều hiệu suất.

Kết quả xác nhận sức mạnh của phương pháp này. DINOv3 đạt được kết quả hàng đầu trên hơn 60 điểm chuẩn. Nó hoạt động tốt trong phân loại, phân đoạn, phát hiện, ước tính độ sâu và thậm chí cả các nhiệm vụ 3D. Nhiều kết quả này được đạt được với xương sống đóng băng, nghĩa là không cần tinh chỉnh thêm.

Hiệu suất và Ưu thế Benchmark

DINOv3 đã thiết lập mình là một mô hình nền tảng thị giác đáng tin cậy. Nó đạt được kết quả mạnh mẽ trên nhiều nhiệm vụ thị giác máy tính. Một điểm mạnh cần thiết là xương sống đóng băng của nó đã bắt được các tính năng phong phú. Kết quả là, hầu hết các ứng dụng chỉ yêu cầu một đầu tuyến tính hoặc một bộ giải mã nhẹ. Điều này làm cho việc chuyển giao nhanh hơn, ít tốn kém hơn và dễ dàng hơn so với việc tinh chỉnh đầy đủ.

Trên ImageNet-1K phân loại, DINOv3 đạt được khoảng 84,5% độ chính xác hàng đầu với các tính năng đóng băng. Đây là một kết quả cao hơn so với nhiều mô hình tự giám sát trước đó và cũng tốt hơn so với một số baseline có giám sát. Đối với phân đoạn ngữ nghĩa trên ADE20K, nó đạt được mIoU khoảng 63,0 bằng cách sử dụng xương sống ViT-L. Những kết quả này cho thấy mô hình bảo tồn thông tin không gian tinh tế mà không cần đào tạo nhiệm vụ cụ thể.

Trong phát hiện đối tượng trên COCO, DINOv3 đạt được mAP khoảng 66,1 với các tính năng đóng băng. Điều này chứng minh sức mạnh của các biểu diễn dày đặc của nó trong việc xác định đối tượng trong các cảnh phức tạp. Mô hình cũng hoạt động tốt trong ước tính độ sâu, ví dụ trên NYU-Depth V2, nơi nó tạo ra các dự đoán chính xác hơn so với nhiều phương pháp có giám sát và tự giám sát trước đó.

Bên cạnh đó, DINOv3 thể hiện kết quả mạnh mẽ trong phân loại tinh và các thử nghiệm ngoài phân phối. Trong nhiều trường hợp, nó vượt qua cả các mô hình SSL trước đó và đào tạo có giám sát truyền thống.

Trong quá trình thử nghiệm, một lợi ích rõ ràng là chi phí chuyển giao thấp. Hầu hết các nhiệm vụ được giải quyết với chỉ đào tạo thêm tối thiểu. Điều này giảm tính toán và rút ngắn thời gian triển khai.

Meta AI và các nhà nghiên cứu khác đã xác nhận DINOv3 trên hơn 60 điểm chuẩn. Những điểm chuẩn này bao gồm phân loại, phân đoạn, phát hiện, ước tính độ sâu, truy xuất và phù hợp hình học. Trên phạm vi rộng lớn của các đánh giá này, mô hình liên tục cung cấp kết quả hàng đầu hoặc gần hàng đầu. Điều này xác nhận vai trò của nó như một mã hóa thị giác đa năng và đáng tin cậy.

Làm thế nào DINOv3 Chuyển đổi Các luồng làm việc của Thị giác Máy tính

Trong các luồng làm việc cũ, các nhóm phải đào tạo nhiều mô hình cụ thể cho từng nhiệm vụ. Mỗi nhiệm vụ cần một tập dữ liệu và tinh chỉnh riêng. Điều này làm tăng cả chi phí và nỗ lực bảo trì.

Với DINOv3, các nhóm có thể tiêu chuẩn hóa trên một xương sống duy nhất. Xương sống đóng băng cùng hỗ trợ các đầu nhiệm vụ cụ thể khác nhau. Điều này giảm số lượng mô hình cơ bản được sử dụng. Nó cũng đơn giản hóa các đường ống tích hợp và rút ngắn chu kỳ phát hành cho các tính năng thị giác.

Đối với các nhà phát triển, DINOv3 cung cấp các tài nguyên thực tế. Meta AI cung cấp các điểm kiểm tra, kịch bản đào tạo và thẻ mô hình trên GitHub. Hugging Face cũng lưu trữ các biến thể được chưng cất với các notebook ví dụ. Những tài nguyên này làm cho việc thử nghiệm và áp dụng mô hình trong các dự án thực trở nên dễ dàng hơn.

Một cách phổ biến mà các nhà phát triển sử dụng những tài nguyên này là để trích xuất tính năng. Một mô hình DINOv3 đóng băng cung cấp các bản nhúng phục vụ như đầu vào cho các nhiệm vụ hạ nguồn. Các nhà phát triển sau đó có thể gắn một đầu tuyến tính hoặc một bộ điều chỉnh nhỏ để giải quyết các nhu cầu cụ thể. Khi cần thích nghi thêm, các phương pháp hiệu quả về tham số, như LoRA hoặc bộ điều chỉnh nhẹ, làm cho việc tinh chỉnh trở nên khả thi mà không phải chịu chi phí tính toán đáng kể.

Các biến thể được chưng cất đóng vai trò quan trọng trong luồng làm việc này. Các phiên bản nhỏ hơn có thể chạy trên các thiết bị có khả năng hạn chế, trong khi các phiên bản lớn hơn vẫn phù hợp cho các phòng thí nghiệm nghiên cứu và máy chủ sản xuất. Sự linh hoạt này cung cấp cho các nhóm khả năng bắt đầu thử nghiệm nhanh và mở rộng đến các thiết lập đòi hỏi hơn khi cần.

Bằng cách kết hợp các điểm kiểm tra có thể tái sử dụng, các đầu đào tạo đơn giản và các kích thước mô hình có thể mở rộng, DINOv3 đang thay đổi các luồng làm việc của thị giác máy tính. Nó giảm chi phí, rút ngắn các chu kỳ đào tạo và làm cho việc sử dụng các mô hình nền tảng trở nên thực tế hơn trên nhiều ngành công nghiệp.

Ứng dụng Cụ thể theo Ngành của DINOv3

Có một số lĩnh vực mà DINOv3 có thể được sử dụng:

Hình ảnh Y tế

Dữ liệu y tế thường thiếu nhãn rõ ràng, và việc chú thích chuyên gia là cả tốn thời gian và đắt. DINOv3 có thể giúp bằng cách tạo ra các tính năng dày đặc có thể chuyển giao tốt cho các nhiệm vụ về bệnh lý và X-quang. Ví dụ, một nghiên cứu đã tinh chỉnh DINOv3 với các bộ điều chỉnh cấp thấp cho phân loại hình dạng mitotic, đạt được độ chính xác cân bằng là 0,8871 với số lượng tham số có thể đào tạo tối thiểu. Điều này cho thấy kết quả chất lượng cao có thể đạt được ngay cả với dữ liệu có nhãn hạn chế. Các đầu đơn giản cũng có thể được sử dụng cho phát hiện bất thường, do đó giảm nhu cầu về các tập dữ liệu lâm sàng lớn có nhãn. Tuy nhiên, việc triển khai lâm sàng vẫn đòi hỏi phải kiểm định nghiêm ngặt.

Hình ảnh Vệ tinh và Địa không gian

Meta đã đào tạo các biến thể DINOv3 trên một tập hợp lớn khoảng 493 triệu đoạn hình ảnh vệ tinh. Những mô hình này đã cải thiện việc ước tính chiều cao tán cây và các nhiệm vụ phân đoạn. Trong một số trường hợp, một biến thể ViT-L vệ tinh được chưng cất thậm chí đã匹 hoặc vượt qua cả mô hình giáo viên đầy đủ 7B. Điều này đã xác nhận giá trị của việc đào tạo tự giám sát theo lĩnh vực. Tương tự, các nhà thực hành có thể đào tạo trước DINOv3 trên dữ liệu lĩnh vực hoặc tinh chỉnh các biến thể được chưng cất để giảm chi phí gán nhãn trong cảm biến từ xa.

Xe tự hành và Robot

Các tính năng của DINOv3 tăng cường các mô-đun nhận thức cho xe và robot. Chúng cải thiện việc phát hiện và tương ứng trong các điều kiện thời tiết và chiếu sáng khác nhau. Nghiên cứu đã chỉ ra rằng xương sống DINOv3 hỗ trợ các chính sách visuomotor và bộ điều khiển khuếch tán, dẫn đến hiệu quả mẫu tốt hơn và tỷ lệ thành công cao hơn trong các nhiệm vụ điều khiển robot. Các nhóm robot có thể áp dụng DINOv3 cho nhận thức, nhưng nên kết hợp nó với dữ liệu lĩnh vực và tinh chỉnh cẩn thận cho các hệ thống quan trọng về an toàn.

Bán lẻ và Logistics

Trong môi trường kinh doanh, DINOv3 có thể hỗ trợ kiểm soát chất lượng và hệ thống hàng tồn kho thị giác. Nó thích nghi trên nhiều dòng sản phẩm và thiết lập máy ảnh khác nhau, do đó giảm nhu cầu đào tạo lại cho mỗi sản phẩm. Điều này làm cho nó trở nên thực tế cho các ngành công nghiệp nhanh chóng với môi trường thị giác đa dạng.

Thử thách, Sự thiên vị và Con đường phía trước

Đào tạo các mô hình nền tảng thị giác, như DINOv3, ở quy mô 7B tham số đòi hỏi tài nguyên tính toán rộng lớn. Điều này hạn chế việc đào tạo trước đầy đủ cho một số tổ chức có nguồn lực dồi dào. Việc chưng cất giảm chi phí suy luận và cho phép các mô hình học sinh nhỏ hơn được triển khai. Tuy nhiên, nó không loại bỏ chi phí ban đầu của việc đào tạo trước. Do đó, hầu hết các nhà nghiên cứu và kỹ sư phụ thuộc vào các điểm kiểm tra được phát hành công khai thay vì đào tạo các mô hình như vậy từ đầu.

Một thách thức quan trọng khác là sự thiên vị của tập dữ liệu. Các bộ sưu tập hình ảnh lớn được thu thập từ Web thường phản ánh sự mất cân bằng khu vực, văn hóa và xã hội. Các mô hình được đào tạo trên chúng có thể kế thừa hoặc thậm chí tăng cường những thiên vị này. Ngay cả khi xương sống đóng băng được sử dụng, việc tinh chỉnh có thể tái giới thiệu sự bất bình đẳng giữa các nhóm. Do đó, việc kiểm tra tập dữ liệu, kiểm tra công bằng và đánh giá cẩn thận là cần thiết trước khi triển khai. Các vấn đề về đạo đức cũng áp dụng cho các thực hành cấp phép và phát hành. Mô hình mở nên được cung cấp với hướng dẫn sử dụng rõ ràng, lưu ý an toàn và đánh giá rủi ro pháp lý để hỗ trợ việc áp dụng có trách nhiệm.

Khi nhìn về phía trước, một số xu hướng sẽ định hình vai trò của DINOv3 và các hệ thống tương tự. Đầu tiên, các hệ thống đa phương thức liên kết thị giác và ngôn ngữ sẽ phụ thuộc vào các mã hóa mạnh mẽ, như DINOv3, để có sự liên kết hình ảnh-văn bản tốt hơn. Thứ hai, tính toán biên và robot sẽ được hưởng lợi từ các biến thể được chưng cất nhỏ hơn, làm cho nhận thức tiên tiến trở nên khả thi trên phần cứng hạn chế. Thứ ba, trí tuệ nhân tạo giải thích sẽ trở nên quan trọng, vì các nhóm sẽ làm việc để làm cho các tính năng dày đặc trở nên giải thích được hơn cho các cuộc kiểm tra, gỡ lỗi và niềm tin trong các lĩnh vực quan trọng. Ngoài ra, nghiên cứu đang diễn ra sẽ tiếp tục cải thiện độ bền chống lại các thay đổi phân phối và đầu vào đối抗, đảm bảo sử dụng đáng tin cậy trong môi trường thực.

Kết luận

Vì các tính năng đóng băng của nó chuyển giao tốt, nó hỗ trợ các nhiệm vụ như phân loại, phân đoạn, phát hiện, ước tính độ sâu với đào tạo thêm tối thiểu. Đồng thời, các biến thể được chưng cất làm cho mô hình đủ linh hoạt để chạy trên cả thiết bị nhẹ và máy chủ mạnh. Những điểm mạnh này có ứng dụng thực tế trong nhiều lĩnh vực, bao gồm chăm sóc sức khỏe, giám sát địa không gian, robot và bán lẻ.

Tuy nhiên, việc tính toán nặng cần thiết cho đào tạo trước và rủi ro thiên vị của tập dữ liệu vẫn còn là những thách thức đang diễn ra. Do đó, tiến bộ trong tương lai phụ thuộc vào việc kết hợp khả năng của DINOv3 với việc kiểm định cẩn thận, giám sát công bằng và triển khai có trách nhiệm, đảm bảo sử dụng đáng tin cậy trong nghiên cứu và công nghiệp.

Dr. Assad Abbas

Dr. Assad Abbas, một Giáo sư Liên kết có thời hạn tại Đại học COMSATS Islamabad, Pakistan, đã nhận bằng Tiến sĩ từ Đại học North Dakota State, USA. Nghiên cứu của ông tập trung vào các công nghệ tiên tiến, bao gồm điện toán đám mây, sương mù và cạnh, phân tích dữ liệu lớn và AI. Dr. Abbas đã có những đóng góp đáng kể với các ấn phẩm trên các tạp chí khoa học và hội nghị uy tín. Ông cũng là người sáng lập của MyFastingBuddy.