Kecerdasan buatan

DINOv3 dan Masa Depan Penglihatan Komputer: Pembelajaran Mandiri dengan Skala Besar

Published October 20, 2025

Updated April 25, 2026

Dr. Assad Abbas

DINOv3 and the Future of Computer Vision: Self-Supervised Learning at Scale

Pelabelan gambar adalah proses yang mahal dan lambat dalam banyak penglihatan komputer proyek. Ini sering memperkenalkan bias dan mengurangi kemampuan untuk menskalakan dataset besar. Oleh karena itu, peneliti telah mencari pendekatan yang menghilangkan kebutuhan untuk pelabelan manual yang berat. Sebagai respons atas tantangan ini, Meta AI memperkenalkan DINOv3 pada tahun 2025. Ini adalah model dasar penglihatan mandiri yang dapat belajar langsung dari 1,7 miliar gambar tanpa label.

Model ini dilatih dengan jaringan guru ekstensif 7 miliar parameter. Melalui pengaturan ini, itu menghasilkan fitur global dan padat berkualitas tinggi dari satu backbone beku. Sebagai hasilnya, model dapat menangkap baik detail halus dalam gambar dan informasi kontekstual yang lebih luas.

Lebih lagi, DINOv3 menunjukkan kinerja kuat di banyak tugas penglihatan tanpa kebutuhan untuk penyetelan halus yang mahal. Ini berarti itu tidak hanya kuat dari perspektif teknis tetapi juga praktis untuk peneliti, insinyur, dan pemimpin industri yang menghadapi keterbatasan sumber daya dan waktu.

Dengan cara ini, DINOv3 mewakili kemajuan signifikan dalam penglihatan komputer. Ini menggabungkan pembelajaran skala besar, efisiensi, dan kemampuan luas, membuatnya menjadi model dasar dengan potensi kuat untuk penelitian akademis dan aplikasi industri.

Evolusi Pembelajaran Mandiri dalam Penglihatan

Penglihatan komputer tradisional telah lama bergantung pada pembelajaran terawasi. Metode ini memerlukan dataset besar yang dilabeli dengan hati-hati oleh manusia. Proses ini mahal, lambat, dan sering tidak praktis dalam bidang di mana label langka atau mahal, seperti pemrosesan medis. Oleh karena itu, Pembelajaran Mandiri (SSL) telah menjadi pendekatan kritis. Ini memungkinkan model untuk belajar fitur visual yang berguna langsung dari data mentah tanpa label dengan menemukan pola tersembunyi dalam gambar.

Metode SSL awal, seperti Momentum Contrast (MoCo) dan Bootstrap Your Own Latent (BYOL), menunjukkan bahwa model dapat belajar fitur visual yang kuat tanpa data yang dilabeli. Metode ini membuktikan nilai dari pengawasan mandiri dan membuka jalan untuk pendekatan yang lebih maju.

Pada tahun 2021, Meta memperkenalkan DINO. Ini adalah langkah signifikan karena itu mencapai kinerja kompetitif menggunakan hanya pelatihan mandiri. Kemudian, DINOv2 lebih maju lagi dengan menskalakan pelatihan dan meningkatkan transferabilitas fitur yang dipelajari ke tugas yang berbeda.

Perbaikan ini menciptakan fondasi untuk DINOv3, yang dirilis pada tahun 2025. DINOv3 menggunakan model yang jauh lebih besar dan dataset yang masif, memungkinkan itu untuk membangun benchmark kinerja baru.

Pada tahun 2025, SSL tidak lagi opsional. Ini menjadi pendekatan yang diperlukan karena itu memungkinkan pelatihan pada miliaran gambar tanpa pelabelan manusia. Ini membuatnya memungkinkan untuk membangun model dasar yang umum di banyak tugas. Backbone pra-dilatih mereka menyediakan fitur yang fleksibel, yang dapat disesuaikan dengan menambahkan kepala tugas khusus yang kecil. Metode ini mengurangi biaya dan mempercepat pengembangan sistem penglihatan komputer.

Selain itu, SSL mengurangi siklus penelitian. Tim dapat menggunakan kembali model pra-dilatih untuk pengujian dan evaluasi yang cepat, yang membantu dalam prototip yang cepat. Gerakan menuju pembelajaran skala besar dan efisiensi label ini mengubah cara sistem penglihatan komputer dibangun dan diterapkan di banyak industri.

Bagaimana DINOv3 Mendefinisikan Ulang Penglihatan Komputer Mandiri

DINOv3 adalah model dasar penglihatan mandiri Meta AI yang paling maju. Ini mewakili tahap baru dalam pelatihan skala besar untuk penglihatan komputer. Tidak seperti versi sebelumnya, itu menggabungkan jaringan guru ekstensif 7 miliar parameter dengan pelatihan pada 1,7 miliar gambar tanpa label. Skala ini memungkinkan model untuk belajar fitur yang lebih kuat dan lebih dapat disesuaikan.

Salah satu perbaikan signifikan dalam DINOv3 adalah stabilitas pembelajaran fitur padat. Model sebelumnya, seperti DINOv2, sering kehilangan detail dalam fitur tingkat patch selama pelatihan yang lama. Ini membuat tugas seperti segmentasi dan estimasi kedalaman kurang dapat diandalkan. DINOv3 memperkenalkan metode yang disebut Gram Anchoring untuk mengatasi masalah ini. Ini menjaga struktur kesamaan antara patch konsisten selama pelatihan, yang mencegah kolaps fitur dan melestarikan detail halus.

Langkah teknis lainnya adalah penggunaan tanaman gambar dengan resolusi tinggi. Dengan bekerja pada bagian gambar yang lebih besar, model menangkap struktur lokal dengan lebih akurat. Ini menghasilkan peta fitur padat yang lebih rinci dan nuansa. Peta seperti itu meningkatkan kinerja dalam aplikasi di mana akurasi tingkat piksel sangat penting, seperti deteksi objek atau segmentasi semantik.

Model ini juga mendapat manfaat dari Rotary Positional Embeddings (RoPE). Embedding ini, digabungkan dengan strategi resolusi dan pemotongan, memungkinkan model untuk menangani gambar dengan ukuran dan bentuk yang berbeda. Ini membuat DINOv3 lebih stabil dalam skenario dunia nyata, di mana gambar input sering bervariasi dalam kualitas dan format.

Untuk mendukung kebutuhan penerapan yang berbeda, Meta AI menyuling DINOv3 menjadi keluarga model yang lebih kecil. Ini termasuk beberapa Vision Transformer (ViT) ukuran dan versi ConvNeXt. Model yang lebih kecil lebih sesuai untuk perangkat tepi, sedangkan model yang lebih besar lebih sesuai untuk penelitian atau server produksi. Fleksibilitas ini memungkinkan DINOv3 diterapkan dalam berbagai lingkungan tanpa kehilangan kinerja yang signifikan.

Hasilnya mengkonfirmasi kekuatan pendekatan ini. DINOv3 mencapai hasil teratas pada lebih dari enam puluh benchmark. Ini berkinerja baik dalam klasifikasi, segmentasi, estimasi kedalaman, dan bahkan tugas 3D. Banyak dari hasil ini dicapai dengan backbone yang beku, yang berarti tidak ada penyetelan halus tambahan yang diperlukan.

Kinerja dan Keunggulan Benchmark

DINOv3 telah mendirikan dirinya sebagai model dasar penglihatan yang dapat diandalkan. Ini mencapai hasil kuat di banyak tugas penglihatan komputer. Salah satu kekuatan yang diperlukan adalah bahwa backbone yang beku telah menangkap fitur yang kaya. Sebagai hasilnya, sebagian besar aplikasi hanya memerlukan probe linier atau decoder ringan. Ini membuat transfer lebih cepat, kurang biaya, dan lebih mudah daripada penyetelan halus penuh.

Pada ImageNet-1K klasifikasi, DINOv3 mencapai sekitar 84,5% akurasi top-1 dengan fitur yang beku. Ini lebih tinggi daripada banyak model mandiri sebelumnya dan juga lebih baik daripada beberapa baseline terawasi. Untuk segmentasi semantik pada ADE20K, itu mencapai mIoU sekitar 63,0 dengan menggunakan backbone ViT-L. Hasil ini menunjukkan bahwa model melestarikan informasi spasial halus tanpa pelatihan tugas khusus.

Dalam deteksi objek pada COCO, DINOv3 mencapai mAP sekitar 66,1 dengan fitur yang beku. Ini menunjukkan kekuatan representasi padatnya dalam mengidentifikasi objek dalam adegan yang kompleks. Model ini juga berkinerja baik dalam estimasi kedalaman, misalnya pada NYU-Depth V2, di mana itu menghasilkan prediksi yang lebih akurat daripada banyak metode terawasi dan mandiri sebelumnya.

Di luar ini, DINOv3 menunjukkan hasil kuat dalam klasifikasi halus dan tes distribusi. Dalam banyak kasus, itu mengungguli model SSL sebelumnya dan pelatihan terawasi tradisional.

Selama eksperimen, manfaat yang jelas adalah biaya transfer yang rendah. Sebagian besar tugas diselesaikan dengan hanya sedikit pelatihan tambahan. Ini mengurangi komputasi dan mempersingkat waktu penerapan.

Meta AI dan peneliti lain memvalidasi DINOv3 pada lebih dari 60 benchmark. Ini termasuk klasifikasi, segmentasi, deteksi, estimasi kedalaman, pengambilan, dan pencocokan geometris. Di seluruh evaluasi yang luas ini, model ini secara konsisten memberikan hasil teratas atau hampir teratas. Ini mengkonfirmasi perannya sebagai pengkode visual yang serbaguna dan dapat diandalkan.

Bagaimana DINOv3 Mengubah Alur Kerja Penglihatan Komputer

Dalam alur kerja lama, tim harus melatih banyak model khusus tugas. Setiap tugas memerlukan dataset dan penyetelan sendiri. Ini meningkatkan biaya dan upaya pemeliharaan.

Dengan DINOv3, tim sekarang dapat memstandardisasi pada satu backbone. Model yang sama dengan backbone yang beku mendukung kepala khusus tugas yang berbeda. Ini mengurangi jumlah model dasar yang digunakan. Ini juga menyederhanakan pipa integrasi dan mempersingkat siklus rilis untuk fitur penglihatan.

Untuk pengembang, DINOv3 menyediakan sumber daya praktis. Meta AI menawarkan titik awal, skrip pelatihan, dan kartu model di GitHub. Hugging Face juga menyimpan varian yang disuling dengan notebook contoh. Sumber daya ini membuatnya lebih mudah untuk bereksperimen dan mengadopsi model dalam proyek nyata.

Cara umum pengembang menggunakan sumber daya ini adalah untuk ekstraksi fitur. Model DINOv3 yang beku menyediakan embedding yang berfungsi sebagai input untuk tugas hilir. Pengembang kemudian dapat menambahkan kepala linier atau adapter kecil untuk memenuhi kebutuhan khusus. Ketika adaptasi lebih lanjut diperlukan, metode yang efisien parameter, seperti LoRA atau adapter ringan, membuat penyetelan halus menjadi layak tanpa mengakibatkan biaya komputasi yang signifikan.

Varian yang disuling memainkan peran penting dalam alur kerja ini. Versi yang lebih kecil dapat berjalan pada perangkat dengan kapasitas terbatas, sedangkan versi yang lebih besar tetap sesuai untuk laboratorium penelitian dan server produksi. Fleksibilitas ini memungkinkan tim untuk memulai pengujian dengan cepat dan berkembang ke pengaturan yang lebih menantang sesuai kebutuhan.

Dengan menggabungkan titik awal yang dapat digunakan kembali, kepala pelatihan sederhana, dan ukuran model yang dapat diskalakan, DINOv3 sedang membentuk alur kerja penglihatan komputer. Ini mengurangi biaya, mempersingkat siklus pelatihan, dan membuat penggunaan model dasar lebih praktis di seluruh industri.

Aplikasi Khusus Domain DINOv3

Ada beberapa domain di mana DINOv3 dapat digunakan:

Pengolahan Medis

Data medis sering kekurangan label yang jelas, dan anotasi ahli sangat memakan waktu dan biaya. DINOv3 dapat membantu dengan menghasilkan fitur padat yang transfer dengan baik ke tugas patologi dan radiologi. Misalnya, sebuah studi menyetel DINOv3 dengan adapter peringkat rendah untuk klasifikasi figur mitotik, mencapai akurasi seimbang 0,8871 dengan jumlah parameter yang dapat dilatih yang minimal. Ini menunjukkan bahwa hasil berkualitas tinggi memungkinkan bahkan dengan data yang dilabeli terbatas. Kepala yang lebih sederhana juga dapat digunakan untuk deteksi anomali, sehingga mengurangi kebutuhan akan dataset klinis yang besar dan dilabeli. Namun, penerapan klinis masih memerlukan validasi yang ketat.

Citra Satelit dan Geospasial

Meta melatih varian DINOv3 pada korpus besar sekitar 493 juta tanaman satelit. Model ini meningkatkan estimasi ketinggian kanopi dan tugas segmentasi. Dalam beberapa kasus, varian satelit ViT-L yang disuling bahkan mencocokkan atau mengungguli guru penuh 7B. Ini mengkonfirmasi nilai dari pelatihan mandiri khusus domain. Secara serupa, praktisi dapat melakukan pra-pelatihan DINOv3 pada data domain atau menyetel varian yang disuling untuk mengurangi biaya pelabelan dalam penginderaan jauh.

Kendaraan Otonom dan Robotika

Fitur DINOv3 memperkuat modul persepsi untuk kendaraan dan robot. Mereka meningkatkan deteksi dan korespondensi di bawah kondisi cuaca dan pencahayaan yang berbeda. Penelitian telah menunjukkan bahwa backbone DINOv3 mendukung kebijakan visuomotor dan pengontrol difusi, menghasilkan efisiensi sampel yang lebih baik dan tingkat keberhasilan yang lebih tinggi dalam tugas manipulasi robotik. Tim robotika dapat menerapkan DINOv3 untuk persepsi, tetapi harus menggabungkannya dengan data domain dan penyetelan halus yang hati-hati untuk sistem kritis keselamatan.

Ritel dan Logistik

Dalam pengaturan bisnis, DINOv3 dapat mendukung kontrol kualitas dan sistem inventori visual. Ini beradaptasi di seluruh garis produk dan pengaturan kamera yang berbeda, sehingga mengurangi kebutuhan untuk pelatihan ulang per produk. Ini membuatnya praktis untuk industri yang bergerak cepat dengan lingkungan visual yang bervariasi.

Tantangan, Bias, dan Jalan ke Depan

Melatih model dasar penglihatan, seperti DINOv3, pada skala 7 miliar parameter memerlukan sumber daya komputasi yang luas. Ini membatasi pelatihan penuh untuk beberapa organisasi yang dibiayai dengan baik. Distilasi mengurangi biaya inferensi dan memungkinkan model siswa yang lebih kecil diterapkan. Namun, itu tidak menghilangkan biaya awal dari pelatihan. Oleh karena itu, sebagian besar peneliti dan insinyur bergantung pada titik awal yang dirilis secara publik daripada melatih model tersebut dari awal.

Tantangan kritis lainnya adalah bias dataset. Koleksi gambar besar yang dikumpulkan dari Web sering mencerminkan ketidakseimbangan regional, budaya, dan sosial. Model yang dilatih pada mereka mungkin mewarisi atau bahkan meningkatkan bias ini. Bahkan ketika backbone yang beku digunakan, penyetelan halus dapat memperkenalkan kembali disparitas di seluruh kelompok. Oleh karena itu, audit dataset, pemeriksaan keadilan, dan evaluasi yang hati-hati diperlukan sebelum penerapan. Masalah etis juga berlaku untuk praktik lisensi dan rilis. Model terbuka harus disediakan dengan pedoman penggunaan yang jelas, catatan keamanan, dan penilaian risiko hukum untuk mendukung adopsi yang bertanggung jawab.

Menghadap ke depan, beberapa tren akan membentuk peran DINOv3 dan sistem serupa. Pertama, sistem multimodal yang menghubungkan penglihatan dan bahasa akan bergantung pada pengkode yang kuat, seperti DINOv3, untuk pengaturan gambar-teks yang lebih baik. Kedua, komputasi tepi dan robotika akan mendapat manfaat dari varian yang disuling yang lebih kecil, membuat persepsi lanjutan memungkinkan pada perangkat terbatas. Ketiga, kecerdasan buatan yang dapat dijelaskan akan mendapatkan kepentingan, karena tim bekerja untuk membuat fitur padat lebih dapat diinterpretasikan untuk audit, debugging, dan kepercayaan di domain yang berisiko tinggi. Selain itu, penelitian yang sedang berlangsung akan terus memperbaiki ketangguhan terhadap pergeseran distribusi dan input yang antagonistis, memastikan penggunaan yang dapat diandalkan dalam lingkungan dunia nyata.

Intinya

Karena fitur yang beku transfer dengan baik, itu mendukung tugas seperti klasifikasi, segmentasi, deteksi, dan estimasi kedalaman dengan sedikit pelatihan tambahan. Pada saat yang sama, varian yang disuling membuat model cukup fleksibel untuk berjalan di seluruh perangkat ringan dan server yang kuat. Kekuatan ini memiliki aplikasi praktis di berbagai bidang, termasuk perawatan kesehatan, pemantauan geospasial, robotika, dan ritel.

Namun, komputasi berat yang diperlukan untuk pelatihan dan risiko bias dataset tetap menjadi tantangan yang berkelanjutan. Oleh karena itu, kemajuan di masa depan bergantung pada menggabungkan kemampuan DINOv3 dengan validasi yang hati-hati, pemantauan keadilan, dan penerapan yang bertanggung jawab, memastikan penggunaan yang dapat diandalkan dalam penelitian dan industri.

Dr. Assad Abbas

Dr. Assad Abbas, seorang Associate Professor Tetap di COMSATS University Islamabad, Pakistan, memperoleh gelar Ph.D. dari North Dakota State University, USA. Penelitiannya berfokus pada teknologi canggih, termasuk cloud, fog, dan edge computing, big data analytics, dan AI. Dr. Abbas telah membuat kontribusi yang signifikan dengan publikasi di jurnal ilmiah dan konferensi yang terkemuka. Ia juga merupakan pendiri dari MyFastingBuddy.