Yapay Zekâ

TinySAM : Segment Her Şeyi Modeli için Sınırları Genişletme

Published February 8, 2024

Updated April 4, 2026

Kunal Kejriwal

TinySAM : Pushing the Boundaries for Segment Anything Model

Nesne segmentasyonu, modern bilgisayar vizyonunda temel ve kritik bir alandır. Geniş görsel bileşenleri gerektiren uygulamalar gibi nesne konumlandırma ve tanımlama için hayati bir rol oynar ve gerçek zamanlı, hızlı ve doğru segmentasyon gerektirir. Bu önem, nesne segmentasyonunu sürekli bir araştırma konusu haline getirmiş, örneğin örnek segmentasyonu, anlamsal segmentasyon ve panoptik segmentasyon gibi alanlarda önemli çalışmalar yapılmıştır.

Nesne segmentasyonunun evrimi ile Segment Her Şeyi Modeli (SAM) dikkat çekici bir araç olarak ortaya çıktı ve mükemmel segmentasyon yetenekleri sergileyerek çeşitli bilgisayar vizyonu uygulamalarında hızla benimsendi. Önceden eğitilmiş bir SAM mimarisi kullanan çerçeveler, aşağı akım vizyon görevlerinde etkileyici performans elde etti. Ancak, yetenekleri ve segmentasyon görevlerindeki yüksek doğruluğu rağmen, SAM’ın karmaşık ve ağır mimarisi önemli hesaplama gücünü gerektirir, bu da hesaplamalı olarak kısıtlı cihazlarda uygulanmasını engeller.

SAM’ın hesaplama zorluklarını ele alan araştırmacılar, orijinal çerçevedeki sıfır çekim performansını koruyarak daha hafif olan Tiny Segment Her Şeyi Modeli (TinySAM) geliştirdiler. TinySAM, öğrenci modelini daha verimli hale getirmeyi amaçlayan tam aşama bilgi damıtma yöntemi ile birlikte çevrimiçi zorlu.prompt’ları kullanır. Aşağı akım eğitim sonrası nicemleme,.prompt’lara segmentasyon görevlerine uyarlanır ve hesaplama gereksinimlerini daha da azaltır. Ayrıca, TinySAM’ın tasarımı, hiyerarşik segmentasyon için hedeflenir ve performansı bozmadan 推理 hızını neredeyse iki katına çıkarır.

Bu makale, TinySAM çerçevesini, temel ilkelerini, mimarisini ve diğer devlet-sanat segmentasyon çerçeveleri ile karşılaştırıldığında performansını araştırır. Bu yönleri daha подроб olarak inceleyelim.

TinySAM : Verimli Segment Her Şeyi Modeli

Segment Her Şeyi Modeli, 11 milyondan fazla görüntü ve 1 milyardan fazla görüntü maskesi içeren devasa bir segmentasyon veri setine sahip olduğu için, çeşitli bilgisayar vizyonu uygulamalarında hızlı ilerlemeye yardımcı oldu. Keyfi kategoriler ve şekillerdeki nesneleri segmente etme görevlerindeki mükemmel performansıyla, görüntü dolgu, nesne izleme, 3D vizyon ve daha fazlası gibi aşağı akım görevleri gerçekleştiren çerçeveler için temel oluşturur. Ayrıca, Segment Her Şeyi Modeli, sınırlı veri ile çalışan tıbbi araştırma ve tıbbi görüntüleme endüstrileri de dahil olmak üzere duyarlı endüstrilere fayda sağlayan sıfır çekim segmentasyonu performansı sunar.

Segment Her Şeyi Modeli’nin, geniş bir aşağı akım vizyon görevleri yelpazesi boyunca mükemmel segmentasyon yetenekleri sunması tartışılmaz, ancak karmaşık mimari yükü, yüksek hesaplama gereksinimleri ve önemli operasyonel maliyetleri gibi dezavantajları da vardır. Modern bir GPU’da çalışan bir SAM modelinin推理 süresi, 1024×1024 görüntü için 2 saniyeye kadar çıkabilir. Bu nedenle, SAM uygulamalarını hesaplamalı olarak kısıtlı cihazlarda uygulamak çok zordur. Bu engeli aşmak için, MobileSAM ve FastSAM gibi recent çalışmalar, daha hesaplama verimli bir SAM modeli geliştirmeye çalıştı. MobileSAM çerçevesi, görüntü kodlayıcısındaki ağır bileşeni TinyViT çerçevesinin mimarisi ile değiştirmeye çalışırken, FastSAM modeli, YoloV8 modeli ile yalnızca bir kategori olan örnek segmentasyon görevine dönüştürür. Bu yöntemler, hesaplama gereksinimlerini azaltma konusunda bazı başarılar elde etti, ancak özellikle sıfır çekim aşağı akım görevlerinde performansı koruyamadılar.

TinySAM veya Tiny Segment Her Şeyi Modeli, mevcut SAM modelinin hesaplama gereksinimlerini azaltmaya yönelik bir girişimdir, ancak performansı sıfır çekim aşağı akım görevlerinde bozmaz. TinySAM çerçevesi, öğrenci modelinin yeteneklerini geliştirmeyi amaçlayan tam aşama bilgi damıtma yöntemini önerir. TinySAM çerçevesi, öğrenci modelini öğretmenin farklı aşamalarından gelen bilgiden yararlanarak eğitir ve damıtma sürecini daha da güçlendirmek için çevrimiçi zorlu.prompt örnekleme stratejisi uygular. Ek olarak, hesaplama maliyetlerini daha da azaltmak için, TinySAM çerçevesi, nicemleme görevlerini.post-eğitim nicemleme bileşenlerine maruz bırakır.

Segment Her Şeyi Modeli’nin hesaplamalı gereksinimlerinin büyük kısmı, modelin ızgara noktasından everything’i segmente etmek için büyük maskeler üretmesinden kaynaklanmaktadır. Bu segmentasyon stratejisindeki hesaplamalı gereksinimleri aşmak için, TinySAM çerçevesi, everything’i hiyerarşik olarak segmente etme stratejisini uygular, bu da performansı bozmadan推理 hızını neredeyse iki katına çıkarır. Bu yöntemler, TinySAM çerçevesinin hesaplamalı gereksinimlerini önemli ölçüde azaltmasını sağlar ve verimli segment her şeyi görevleri için yeni sınırlar oluşturur.

TinySAM : Mimarisi ve Yöntemi

TinySAM çerçevesinin mimarisini ve yöntemini tartışmadan önce, önce Segment Her Şeyi Modeli’nin temel ilkelerine bakmak önemlidir. Segment Her Şeyi Modeli, sunulmasından bu yana, çeşitli aşağı akım vizyon ve nesne segmentasyon görevlerinde mükemmel performans, esneklik ve genelleme yetenekleri sergiledi.

Segment Her Şeyi Modeli’nin temelinde, üç alt ağ vardır: prompt kodlayıcısı, görüntü kodlayıcısı ve maske kodlayıcısı. Prompt kodlayıcısının ana amacı, keyfi şekilli maskeleri, girdi noktalarını ve kutuları ve serbest metinleri konum bilgisi ile kodlamaktır. Görüntü kodlayıcısı, ağır bir ViT veya vizyon transformatör tabanlı ağdır ve girdi görüntüsünü gömme olarak dönüştürür. Model, geometrik ve metin prompt’larını işlemek için farklı ağlar kullanır. Son olarak, maske kodlayıcısı, prompt ve görüntü kodlayıcısının çıktısını alan iki yönlü bir transformatör içerir ve nihai maske tahmini üretir. Veri seti ile, Segment Her Şeyi Modeli, nesnelerin şekli ve kategorisine bakılmaksızın, yüksek kaliteli segmentasyon yetenekleri sergiler. Ayrıca, Segment Her Şeyi Modeli, nesne önerisi, kenar algılama, metinden maske tahmini ve örnek segmentasyonu gibi sıfır çekim aşağı akım görevlerinde mükemmel performans ve verimlilik sergiler. Yüksek kaliteli segmentasyon yetenekleri ve esnek prompt teklifleri sayesinde, Segment Her Şeyi Modeli çerçeveleri, vizyon uygulamaları için temel oluşturur. Ancak, geleneksel SAM mimarisinin yüksek hesaplamalı gereksinimlerini ve büyük aantal parametrelerini görmezden gelemeyiz, bu da geliştiricilerin SAM tabanlı uygulamaları kısıtlı kaynaklara sahip cihazlarda dağıtmalarını几乎 imkansız hale getirir.

Bilgi Damıtma

Bilgi damıtma, compact ağların eğitim aşamasında performansını artırmak için önemli bir yaklaşımdır. Bilgi damıtma yöntemi, öğretmenin çıktısını kullanarak hafif öğrenci modelinin eğitimini denetler. Bilgi damıtma yöntemi, ara özellikler için damıtma ve ağ çıktıları için damıtma olmak üzere iki alt kategoriye ayrılabilir, çoğu araştırma çalışması görüntü sınıflandırma görevlerine odaklanmıştır.

Aşağıdaki şekil, TinySAM çerçevesinin genel mimarisini ve sıfır çekim örnek segmentasyonu görevlerindeki performansını gösterir.

İlk aşamada, TinySAM çerçevesi, Segment Her Şeyi Modeli için özel olarak tasarlanmış bilgi damıtma yöntemini uygular ve damıtma sürecini daha da güçlendirmek için çevrimiçi zorlu.prompt örnekleme stratejisi kullanır. İkinci aşamada, TinySAM çerçevesi, nicemleme görevlerini.post-eğitim nicemleme bileşenlerine uyarlar ve hafif öğrenci modeline uygular. Son olarak, model, hiyerarşik everything’i segmente etme stratejisini uygular, bu da performansı bozmadan推理 hızını neredeyse iki katına çıkarır.

Tam Aşama Bilgi Damıtma

Önceden bahsedildiği gibi, Segment Her Şeyi Modeli’nin temelinde, üç alt ağ vardır: prompt kodlayıcısı, görüntü kodlayıcısı ve maske kodlayıcısı, görüntü kodlayıcısı bileşeni vizyon transformatör tabanlı bir ağdır ve yüksek hesaplamalı gereksinimleri vardır. Bu sorunu aşmak için, MobileSAM çerçevesi, vizyon transformatörünü TinyViT veya Tiny Vizyon Transformatör ile değiştirdi, ancak bu değişim etkili değildi, çünkü önemli performans kaybı yaşandı. Performans kaybı olmadan, TinySAM çerçevesi, hafif görüntü kodlayıcısını öğrenme düzeyinden çoklu bilgi düzeyine kadar yönlendiren tam aşama bilgi damıtma yöntemini uygular. Geleneksel kayıp arasında, TinySAM çerçevesi, farklı aşamalarda birden fazla damıtma kaybı tanır, aşağıdaki şekilde gösterildiği gibi.

Nicemleme

Model Nicemleme, bilgisayar vizyonu çerçevelerinde popüler bir yaklaşımdır ve modeli daha düşük bant genişliğine sahip tamsayı tensörüne proje etmek için kullanılır, bu da hesaplamalı karmaşıklığı ve depolama gereksinimlerini azaltmaya çalışırken çıktı kalitesini önemli ölçüde bozmaz.

TinySAM’deki nicemlemenin ana amacı, ölçekleme faktörünü optimize etmek için matris çarpımı ve nicemlenmiş matris arasındaki mesafeyi ölçen bir ölçütü kullanarak, kayan nokta tensörünü bit tamsayı tensörüne proje etmektir.

Hiyerarşik Segment Her Şeyi

Segment Her Şeyi Modeli, everything’i segmente etmek için otomatik bir maske üreticisi önerir, bu da ızgara noktalarını örnekler. Ancak, yoğun nokta ızgarasının kullanılması, çok ince taneli segmentasyon çıktıları ile sonuçlanır ve bu işlem büyük hesaplamalı gereksinimlere ve yüksek operasyonel maliyetlere neden olur. Ayrıca, bir nesnenin farklı bölümlerinin ayrı maskeler olarak segmentlenmesi yanlış olabilir, diğer taraftan, everything modu推理 süresinin büyük kısmı, görüntü kodlayıcısının önemli ölçüde küçültülmesinden kaynaklanır. Everything modunun operasyonel maliyetini azaltmak için, TinySAM çerçevesi, hiyerarşik bir maske üretme yaklaşımı kullanır, bu yaklaşımın orijinal SAM çerçevesi ile arasındaki fark aşağıdaki resimde gösterilir.

Orijinal SAM çerçevesi ile uygulanan yaklaşımdan farklı olarak, TinySAM modeli, her kenar için yalnızca %25 nokta kullanır, bu da orijinal ayarlamada bulunan noktalardan yalnızca 1/16’sını kullanır. Model, bu prompt’lar ile maske kodlayıcısı ve prompt kodlayıcısını推理 eder ve çıktı alır. Model, belirli bir eşiği aşan bazı maskeleri filtreler ve karşılık gelen konumları potansiyel son tahminler olarak işaretleme yapar. Bu bölgeleri, yüksek güven ile örneklerin segmentasyon sonucu olarak işlediğinden, point prompt’ları üretmeye gerek yoktur. Bu strateji, nesnenin çok ince taneli segmentasyonunu önler ve operasyonel maliyetleri ve hesaplamalı gereksinimleri önemli ölçüde azaltmaya yardımcı olur. Çerçeve, bu iki turun sonuçlarını birleştirir ve son maskeleri alır.

TinySAM : Deneyler ve Sonuçlar

Damıtma sürecini hızlandırmak için, TinySAM çerçevesi, öğretmenin görüntü gömmelerini önceden hesaplar ve depolar, bu da modelin öğretmenin ağır görüntü kodlayıcısını tekrarlayan olarak eğitim aşamasında hesaplamasına gerek kalmaz. Nicemleme için, TinySAM çerçevesi, tüm matris çarpma katmanlarını, convolution katmanlarını, deconvolution katmanlarını ve lineer katmanlarını nicemler, modelin channel-wise ölçekleme faktörlerini convolution ve deconvolution katmanları için, head-wise ölçekleme faktörlerini matris çarpma katmanları için ve lineer ölçekleme faktörlerini lineer katmanlar için uygular. Model, sıfır çekim aşağı akım görevlerinde değerlendirme yapar.

Sıfır çekim örnek segmentasyonu görevleri için, TinySAM çerçevesi, Segment Her Şeyi Modeli’nin deneysel ayarlarını takip eder ve Vision Transformer Det-H veya VitDet-H çerçevesinin nesne algılama sonuçlarını örnek segmentasyonu için kullanır. Aşağıdaki resimde gösterildiği gibi, TinySAM çerçevesi, mevcut yöntemleri örnek segmentasyonu doğruluğu ve FLOPs puanı açısından aşar.

Ayrıca, TinySAM modelinin nitel performansı, sıfır çekim örnek segmentasyonu için aşağıdaki resimde gösterilir, yeşil kutu prompt’ları temsil eder.

Sıfır çekim noktaları geçerli maske değerlendirmesi açısından, TinySAM modeli, MobileSAM çerçevesini önemli ölçüde aşar ve farklı veri setlerinde daha iyi sonuçlar verir, özellikle de framework tarafından daha az sayıda nokta kullanıldığında.

Aşağıdaki tablo, hiyerarşik everything modu stratejisi ile elde edilen hızlandırma ve hesaplamalı gereksinimlerdeki azalmayı özetler. Model, aynı kararlılık puanını ve eşiği farklı stratejiler için kullanır ve sonuçlar aşağıdaki gibi özetlenir.

Son Düşünceler

Bu makalede, TinySAM çerçevesini, segment her şeyi görevleri için sınırları genişleten bir çerçeve olarak tanıttık ve orijinal SAM çerçevesi ile aynı sıfır çekim performansını koruyarak daha az hesaplamalı gereksinimi olan bir model mimarisi elde ettik. TinySAM veya Tiny Segment Her Şeyi Modeli, orijinal çerçevenin sıfır çekim performansını korur. TinySAM çerçevesi, önce tam aşama bilgi damıtma yöntemini uygular, çevrimiçi zorlu.prompt’ları kullanarak hafif bir öğrenci modelini damıtmaya yardımcı olur. TinySAM çerçevesi, nicemleme görevlerini.prompt’lara segmentasyon görevlerine uyarlar ve hesaplamalı gereksinimleri daha da azaltmaya yardımcı olur. Ayrıca, everything’i hiyerarşik olarak segmente etme stratejisini uygular, bu da performansı bozmadan推理 hızını neredeyse iki katına çıkarır.

Kunal Kejriwal

Mesleği mühendis, kalbi yazar. Kunal, AI ve ML'ye derin bir sevgi ve anlayışla technical writer, bu alanlardaki karmaşık kavramları etkileyici ve bilgilendirici belgelerle basitleştirmeye adanmış.