Yapay Zeka

TinySAM : Her Şeyi Segmente Ayırmak İçin Sınırları Zorlamak

Yayınlanan Şubat 8, 2024

Kunal Kejriwal

TinySAM : Her Şeyi Segmente Ayırmak İçin Sınırları Zorlamak

Nesne bölümleme, modern bilgisayarlı görmede temel ve kritik öneme sahip bir alandır. Nesne lokalizasyonu ve tanımlaması gibi kapsamlı görsel bileşenler gerektiren uygulamalarda hayati bir rol oynar ve gerçek zamanlı, hızlı ve doğru segmentasyon gerektirir. Bu önem, örnek bölümleme, semantik bölümleme ve panoptik bölümleme gibi alanlarda yapılan önemli çalışmalarla nesne bölümlendirmeyi sürekli olarak sıcak bir araştırma konusu haline getirmiştir.

Nesne segmentasyonunun evrimiyle birlikte, Segment Anything Model (SAM), olağanüstü segmentasyon yetenekleri sergileyen ve çeşitli bilgisayarlı görme uygulamalarında hızla benimsenen dikkat çekici bir araç olarak ortaya çıkmıştır. Önceden eğitilmiş bir SAM mimarisi kullanan çerçeveler, alt akış görme görevlerinde etkileyici bir performans elde etmiştir. Ancak, segmentasyon görevlerindeki yeteneklerine ve yüksek doğruluğuna rağmen, SAM'in karmaşık ve ağır mimarisi önemli bir hesaplama gücü gerektirmekte ve bu da hesaplama açısından kısıtlı cihazlarda uygulanmasını engellemektedir.

SAM'in hesaplama zorluklarını ele alan araştırmacılar, orijinal çerçevenin sıfır-atış performansını korurken daha hafif olan Tiny Segment Anything Model'i (TinySAM) geliştirdiler. TinySAM, daha verimli bir öğrenci modeli oluşturmak için çevrimiçi zor komutlarla tam aşamalı bir bilgi damıtma yöntemi kullanır. Komutla çalıştırılabilen segmentasyon görevlerine uyarlanmış eğitim sonrası nicemleme, hesaplama gereksinimlerini daha da azaltır. Ayrıca, TinySAM'in tasarımı hiyerarşik segmentasyonu hedefleyerek, performanstan ödün vermeden çıkarım hızını neredeyse iki katına çıkarır.

Bu makale, diğer son teknoloji segmentasyon çerçeveleriyle karşılaştırıldığında temel ilkelerini, mimarisini ve performansını inceleyerek TinySAM çerçevesini ayrıntılı olarak ele almaktadır. Bu yönleri daha ayrıntılı olarak inceleyelim.

TinySAM : Her Şeyi Verimli Segmente Alma Modeli

Her Şeyi Segmente Ayırma Modeli, övgüye değer segmentasyon yetenekleri ve 11 milyondan fazla görüntüyü ve bir milyardan fazla görüntü maskesini barındıran devasa bir segmentasyon veri kümesi sayesinde çeşitli bilgisayarlı görüntü uygulamalarının hızlı ilerlemesine yardımcı oldu. Nesneleri rastgele kategorilere ve şekillere göre bölümleyen görevlerdeki olağanüstü performansı sayesinde, görüntüyü iç boyama, nesne izleme, 3D görme ve daha fazlası gibi aşağı yönlü görevleri gerçekleştiren çerçeveler için temel görevi görür. Ayrıca, Her Şeyi Segmente Alma Modeli aynı zamanda dikkat çekici avantajlar sunar sıfır atış segmentasyonu Tıbbi araştırma ve tıbbi görüntüleme endüstrileri de dahil olmak üzere sınırlı miktarda veriyle çalışan hassas endüstrilere fayda sağlayan performans.

Her ne kadar Her Şeyi Segmente Alma Modeli'nin çok çeşitli aşağı yönlü görüş görevlerinde sunduğu dikkat çekici segmentasyon yetenekleri sorgulanamazsa da, karmaşık mimari aşırı yük, yüksek hesaplama gereksinimleri ve önemli işletme maliyetleri açısından dezavantajları vardır. Modern bir GPU üzerinde çalışan bir sistem için, SAM modelinin çıkarım süresi, 2×1024 görüntü için 1024 saniyeye kadar çıkabilmektedir. Sonuç olarak, SAM uygulamalarını sınırlı hesaplama yeteneklerine sahip cihazlara uygulamak oldukça zor bir iştir. Bu engelin üstesinden gelmek için MobileSAM ve FastSAM gibi son çalışmalar, daha fazla hesaplama verimliliğine sahip bir SAM modeli geliştirmeye çalıştı. MobileSAM çerçevesi, görüntü kodlayıcıdaki ağır bileşeni TinyViT çerçevesinin mimarisiyle değiştirmeye çalışırken FastSAM modeli, segment görevini tek bir kategoriye sahip bir örnek segmentasyon görevine aktarır. yoloV8 modeli. Bu yöntemler, hesaplama gereksinimlerini azaltma açısından bir düzeyde başarı elde etmiş olsa da, özellikle aşağı akışlı sıfır atış görevlerinde performansı koruyamadılar.

TinySAM veya Minik Segment Her Şey Modeli, sıfır atışlı aşağı akış görevlerindeki performansı engellemeden mevcut SAM modelinin hesaplama gereksinimlerini azaltma girişimidir. Ayrıca TinySAM çerçevesi, kompakt öğrenci ağının yeteneğini geliştirmek amacıyla mimarisinde tam aşamalı bir bilgi ayrıştırma yönteminin uygulanmasını önermektedir. TinySAM çerçevesi, öğretmen ağının gözetiminde farklı aşamalardan öğrenci ağını uçtan uca ayrıştırır. Performansı daha da artırmak için çerçeve, ek bir çevrimiçi hızlı örnekleme stratejisi uygulayarak damıtma sürecinin somut örneklere daha fazla katılmasına olanak tanır. Ayrıca, hesaplama maliyetlerini ek olarak azaltmak için TinySAM çerçevesi, hızlı bölümlendirme görevlerini eğitim sonrası niceleme bileşenlerine sunar.

Her Şeyi Segmente Ayırma Modeli'nin hesaplama gereksiniminin en büyük kısmı, modelin görüntüdeki her şeyi segmentlere ayırmak için ızgara istem noktalarından devasa maskeler üretmesidir. Bu segmentasyon stratejisinin hesaplama gereksiniminin üstesinden gelmek için TinySAM çerçevesi, performansı düşürmeden çıkarım hızını neredeyse iki katına çıkaran hiyerarşik bir her şey segmenti stratejisini kullanır. TinySAM çerçevesi, mimarisinde kullanılan bu yöntemler sayesinde hesaplama gereksinimlerinde önemli bir azalma sağlar ve her türlü görevi verimli bir şekilde bölümlere ayırmak için yeni sınırlar belirler.

TinySAM : Mimari ve Metodoloji

TinySAM çerçevesinin mimarisi ve metodolojisi hakkında konuşmadan önce, öncelikle onun öncülü olan SAM çerçevesine bir göz atmak önemlidir. Piyasaya sürülmesinden bu yana, Her Şeyi Segmente Ayırma Modeli, bir dizi aşağı yönlü görüş ve nesne segmentasyon görevlerinde olağanüstü performans, çok yönlülük ve genelleme yetenekleri göstermiştir.

SAM modeli özünde üç alt ağdan oluşur: bilgi istemi kodlayıcı, görüntü kodlayıcı ve maske kod çözücü. Bilgi istemi kodlayıcının birincil amacı, isteğe bağlı şekilli maskeleri, giriş noktalarını ve kutularını ve serbest biçimli metni konum bilgileriyle kodlamaktır. Görüntü kodlayıcı, giriş görüntüsünü yerleştirmelere çıkaran ağır bir ViT veya görüntü transformatörü tabanlı ağdır. Model, geometrik ve metin istemlerini işlemek için farklı ağlar kullanır. Son olarak, maske kod çözücü, son maske tahminini oluşturmak için istemin çıkışını ve görüntü kodlayıcıyı alan iki yönlü bir transformatör içerir. SAM çerçevesi, veri kümesiyle, şekillerine ve kategorilerine bakılmaksızın nesneler için olağanüstü yüksek kaliteli segmentasyon yetenekleri sergiliyor. Ayrıca, Her Şeyi Segment Modeli nesne teklifi, kenar algılama, metinden maskeye tahmin ve örnek segmentasyonu dahil olmak üzere sıfır atışlı aşağı yönlü görüş görevlerinde olağanüstü performans ve verimlilik gösterir. Yüksek kaliteli segmentasyon yetenekleri ve esnek hızlı teklifler sayesinde SAM çerçeveleri, görüntü uygulamalarının temelini oluşturur. Bununla birlikte, geliştiricilerin SAM tabanlı uygulamaları kısıtlı kaynaklara sahip cihazlara dağıtmasını neredeyse imkansız hale getiren çok sayıda parametreye sahip geleneksel SAM mimarisinin yüksek hesaplama gereksinimi göz ardı edilemez.

Bilgi Damıtma

Bilginin damıtılması, eğitim aşamasında kompakt ağların performansını artırmak için önemli bir yaklaşımdır. Hafif öğrenci ağının eğitimini denetlemek için öğretmen ağının çıktısını kullanan bilgi damıtma yöntemi. Bilgi damıtma yöntemi iki alt kategoriye ayrılabilir: ara özellikler için damıtma ve ağ çıktıları için damıtma; bilgi damıtma etrafında yapılan araştırmaların çoğunluğu görüntü sınıflandırma görevlerine odaklanıyor.

Bununla birlikte, aşağıdaki şekil TinySAM çerçevesinin genel mimarisinin yanı sıra sıfır atışlı örnek bölümleme görevlerine ilişkin performansa genel bakışı göstermektedir.

İlk aşamada TinySAM çerçevesi, SAM çerçevesi için özel olarak tasarlanmış bilgi damıtma işlemini uygular ve damıtma sürecini daha da etkinleştirmek için model, öğretmen ağından öğrenci ağına somut bilgiyi çıkarmak için çevrimiçi bir zor istem örneklemesi kullanır. İkinci aşamada TinySAM çerçevesi, eğitim sonrası niceleme yöntemini hızlı bölümleme görevlerine uyarlar ve bunu hafif öğrenci ağında uygular. Son olarak model, segmentasyon görevleri için tasarlanan her şeyi hiyerarşik segmentlere ayırma çıkarım modunu uygular ve bu da çıkarım hızının ihmal edilebilir doğruluk kaybıyla iki katına çıkmasına neden olur.

Tam Aşamalı Bilgi Damıtma

Daha önce de belirtildiği gibi, Segment Her Şey Modeli özünde üç alt ağdan oluşur: anlık kodlayıcı, görüntü kodlayıcı ve maske kod çözücü, görüntü kodlayıcı bileşeni bir görüntü transformatörü üzerine kuruludur ve yüksek hesaplama gereksinimlerine sahiptir. Bu sorunun üstesinden gelmek için MobileSAM çerçevesi, görüntü transformatörünü TinyViT veya Tiny Vision Transformer ile değiştirdi, ancak önemli performans düşüşü göz önüne alındığında bu değişiklik etkili olmadı. TinySAM çerçevesi, performansın bozulmamasını sağlamak için hafif görüntü kodlayıcıyı öğrenme seviyesinden çoklu bilgi seviyesine yönlendiren tam aşamalı bir bilgi ayrıştırma yöntemini uygular. Temel doğruluk etiketleri ile tahmin edilen sonuçlar arasındaki geleneksel kayba ek olarak TinySAM çerçevesi, aşağıdaki şekilde gösterildiği gibi farklı aşamalarda çok sayıda damıtma kaybına neden olur.

niceleme

Model Niceleme, bilgisayarla görme çerçevelerinde popüler bir yaklaşımdır ve çıktı kalitesini önemli ölçüde bozmadan hesaplama karmaşıklığını ve depolama gereksinimlerini azaltmak amacıyla ağırlıkları veya aktivasyonları yüksek bant genişliğinden düşük bant genişliğine doğru niceleyerek modeli sıkıştırmak için kullanılır.

TinySAM'de nicelemenin birincil amacı, ölçekleme faktörünü optimize etmek için hayati bir rol oynayan matris çarpımı ile nicelenmiş matris arasındaki mesafeyi ölçmek için bir metrik ile bir ölçeklendirme faktörü kullanarak kayan nokta tensörünü bit tamsayı tensörüne yansıtmaktır.

Hiyerarşik Segment Herhangi Bir Şey

Her Şeyi Segmente Ayırma Modeli, görüntüdeki her şeyi segmentlere ayırmak için noktaları bir ızgara olarak örnekleyen otomatik bir maske oluşturucunun kullanılmasını önerir. Bununla birlikte, yoğun nokta ızgarasının kullanımının aşırı ince taneli bölümleme çıktılarına yol açtığı ve sürecin büyük hesaplama gereksinimleri gerektirdiği ve yüksek işletme maliyetlerine yol açtığı belirtilmiştir. Ayrıca, bir tarafta, tam bir nesne için çok fazla örnekleme noktası, nesnenin farklı bölümlerinin ayrı maskeler olarak hatalı bir şekilde bölümlenmesine yol açabilirken, diğer tarafta, her şey modu çıkarımının zaman maliyeti temel olarak şu nedenden kaynaklanmaktadır: görüntü kodlayıcı önemli ölçüde küçültüldü. TinySAM çerçevesi, her şey modunun operasyonel maliyetini azaltmak için hiyerarşik bir maske oluşturma yaklaşımı kullanır; orijinal SAM çerçevesi ile strateji farkı aşağıdaki görüntüde gösterilmektedir.

Orijinal SAM çerçevesinde uygulanan yaklaşımdan farklı olarak TinySAM modeli, her iki tarafta da yalnızca %25 puan kullanır, dolayısıyla orijinal ayardaki mevcut noktaların yalnızca 1/16'sını kullanır. Model daha sonra bu istemlerle maske kod çözücüyü ve bilgi istemi kodlayıcıyı çıkarır ve çıktıyı alır. Model daha sonra belirli bir eşiği aşan bazı maskeleri güvenle filtreler ve karşılık gelen konumları potansiyel nihai tahminler için alanlar olarak maskeler. Model, bu bölgeleri yüksek güvenliğe sahip örneklerin segmentasyon sonucu olarak ele aldığından, nokta istemleri oluşturmaya gerek duymaz. Strateji, yalnızca nesnenin aşırı ince taneli bölümlendirilmesini önlemeye yardımcı olmakla kalmıyor, aynı zamanda operasyonel maliyetlerin ve hesaplama gereksinimlerinin önemli ölçüde azaltılmasına da yardımcı oluyor. Çerçeve daha sonra son maskeleri elde etmek için bu iki turun sonuçlarını birleştirir ve sonradan işler.

TinySAM : Deneyler ve Sonuçlar

Damıtma sürecini hızlandırmak için TinySAM çerçevesi, öğretmen ağından gelen görüntü yerleştirmelerini önceden hesaplar ve saklar; bu sayede modelin, eğitim aşaması sırasında öğretmen ağının ağır görüntü kodlayıcısını tekrar tekrar hesaplaması artık zorunlu değildir. Eğitim sonrası kuantizasyon için TinySAM çerçevesi, hem evrişim hem de evrişim katmanları için kanal bazında ölçeklendirme faktörlerini kullanan modelle tüm matris çoklu katmanlarını, evrişim katmanlarını, ters evrişim katmanlarını ve doğrusal katmanları kuantize eder. Matris çarpım katmanları için model, kafa bazında ölçeklendirme faktörlerini uygularken, doğrusal katmanlar için model, doğrusal ölçeklendirme faktörlerini uygular. Model aynı zamanda sıfır atışlı aşağı akış görevlerinde de değerlendirme yapar.

Örneğin, sıfır atış ayarındaki segmentasyon görevleri için TinySAM çerçevesi, önceki model olan Segment Her Şey Modelinin deneysel ayarlarını takip eder ve örneğin segmentasyon için Vision Transformer Det-H veya VitDet-H çerçevesinin nesne algılama sonuçlarını kullanır. Aşağıdaki görüntüde gösterildiği gibi TinySAM çerçevesi, örnek segmentasyon doğruluğu ve FLOP puanı açısından mevcut yöntemlerden daha iyi performans gösteriyor.

Ayrıca TinySAM modelinin niteliksel performansı, kutu istemlerini temsil eden yeşil kutu ile sıfır atışlı örnek segmentasyonu için aşağıdaki görüntüde gösterilmektedir.

Sıfır atış noktaları geçerli maske değerlendirmesi açısından TinySAM modeli, farklı veri kümelerinde MobileSAM çerçevesinden önemli ölçüde daha iyi performans gösterir ve çerçevenin yönlendirmeleri olarak daha az sayıda nokta kullanıldığında önemli ölçüde daha iyi sonuçlar verir.

Ayrıca aşağıdaki tablo, hiyerarşik her şey modu stratejisinin bir sonucu olarak elde edilen hesaplama gereksinimlerindeki hızlanma ve azalmanın sonuçlarını özetlemektedir. Model, adil bir karşılaştırma için aynı stabilite skorunu ve eşik değerini farklı stratejilerle uygulamaktadır ve sonuçlar aşağıda özetlenmektedir.

Son Düşüncelerimiz

Bu makalede, herhangi bir görevi segmentlere ayırmanın sınırlarını zorlayan ve orijinal SAM çerçevesiyle aynı seviyede daha az hesaplama gereksinimi ve doğruluğu ile verimli bir model mimarisi elde eden önerilen bir çerçeve olan TinySAM'den bahsettik. Orijinal çerçevenin sıfır atış performansını koruyan ve sunan TinySAM veya Tiny Segment Her Şey Modeli. TinySAM çerçevesi ilk olarak hafif bir öğrenci modelini ayrıştırmak için çevrimiçi zor istemleri kullanan tam aşamalı bir bilgi ayrıştırma yöntemini uygular. TinySAM çerçevesi daha sonra eğitim sonrası nicelemeyi, hesaplama gereksinimlerinin azaltılmasına daha da yardımcı olan hızlı bölümleme görevlerine uyarlar. Ayrıca çerçeve, performansı etkilemeden çıkarım hızını neredeyse iki katına çıkaracak şekilde her şeyi hiyerarşik olarak bölümlere ayırmayı da hedefliyor.

Kunal Kejriwal

"Meslek olarak bir mühendis, ezbere bir yazar". Kunal, yapay zeka ve makine öğrenimine derin bir sevgi ve anlayışa sahip, ilgi çekici ve bilgilendirici belgeleriyle bu alanlardaki karmaşık kavramları basitleştirmeye kendini adamış bir teknik yazardır.