Bizimle iletişime geçin

Yapay Zeka

YOLO-World: Gerçek Zamanlı Açık Kelime Nesnesi Tespiti

mm

Nesne tespiti, sektörde temel bir zorluk olmuştur. Bilgisayar görüşü robotik, görüntü anlama, otonom araçlar ve görüntü tanıma. Son yıllarda, özellikle derin sinir ağları aracılığıyla yapay zeka alanında çığır açan çalışmalar, nesne tespitini önemli ölçüde geliştirdi. Ancak bu modellerin, COCO veri setinin 80 kategorisi içindeki nesneleri tespit etmekle sınırlı olan sabit bir sözlüğü vardır. Bu sınırlama, nesne dedektörlerinin yalnızca belirli kategorileri tanıyacak şekilde eğitildiği ve dolayısıyla bunların uygulanabilirliğinin sınırlandığı eğitim sürecinden kaynaklanmaktadır.

Bunun üstesinden gelmek için, YOLO (Yalnızca Bir Kez Bakarsınız) çerçevesini açık sözcük algılama yetenekleriyle geliştirmeyi amaçlayan yenilikçi bir yaklaşım olan YOLO-World'ü tanıtıyoruz. Bu, çerçevenin büyük ölçekli veri kümeleri üzerinde önceden eğitilmesi ve vizyon dili modelleme yaklaşımının uygulanmasıyla gerçekleştirilir. Özellikle, YOLO-World, dilsel ve görsel bilgiler arasındaki etkileşimi geliştirmek için Yeniden Parametrelendirilebilir Vizyon-Dil Yolu Toplama Ağı (RepVL-PAN) ve bölge-metin karşılaştırmalı kaybını kullanır. RepVL-PAN ve bölge metni karşılaştırmalı kaybı sayesinde YOLO-World, sıfır atış ayarında çok çeşitli nesneleri doğru bir şekilde algılayabilir ve açık kelime dağarcığı segmentasyonu ve nesne algılama görevlerinde olağanüstü performans gösterir.

Bu makale, YOLO-World'ün teknik temelleri, model mimarisi, eğitim süreci ve uygulama senaryoları hakkında kapsamlı bir anlayış sağlamayı amaçlamaktadır. Hadi başlayalım.

YOLO-World: Gerçek Zamanlı Açık Kelime Nesnesi Tespiti

YOLO veya Sadece Bir Kez Bakarsınız, bilgisayarla görme endüstrisinde günümüz nesne tespiti için en popüler yöntemlerden biridir. İnanılmaz hızı ve verimliliğiyle tanınan YOLO mekanizma, makinelerin görüntü ve videolardaki belirli nesneleri gerçek zamanlı olarak yorumlama ve algılama biçiminde devrim yarattı. Geleneksel nesne algılama çerçeveleri iki aşamalı bir nesne algılama yaklaşımı uygular: ilk adımda çerçeve, nesneyi içerebilecek bölgeleri önerir ve çerçeve, bir sonraki adımda nesneyi sınıflandırır. YOLO çerçevesi ise bu iki adımı tek bir sinir ağı modelinde birleştirir; bu, çerçevenin nesneyi ve görüntü içindeki konumunu tahmin etmek için görüntüye yalnızca bir kez bakmasına olanak tanıyan bir yaklaşımdır ve dolayısıyla YOLO veya Siz adı verilir. Sadece Bir Kez Bakın. 

Ayrıca YOLO çerçevesi, nesne tespitini bir regresyon problemi olarak ele alır ve sınıf olasılıklarını ve sınırlayıcı kutuları doğrudan tam görüntüden tek bakışta tahmin eder. Bu yöntemin uygulanması yalnızca tespit sürecinin hızını arttırmakla kalmaz, aynı zamanda modelin karmaşık ve çeşitli verilerden genelleme yapma yeteneğini de geliştirerek onu otonom sürüş, hız tespiti veya sayı gibi gerçek zamanlı çalışan uygulamalar için uygun bir seçim haline getirir. plaka tanıma Ayrıca, derin sinir ağlarının son birkaç yılda kaydettiği önemli ilerleme, nesne algılama çerçevelerinin geliştirilmesine de önemli ölçüde katkıda bulunmuştur, ancak nesne algılama çerçevelerinin başarısı, yalnızca sınırlı kelime dağarcığıyla nesneleri algılayabildikleri için hala sınırlıdır. Bunun temel nedeni, nesne kategorileri veri kümesinde tanımlandıktan ve etiketlendikten sonra, çerçevedeki eğitimli dedektörlerin yalnızca bu belirli kategorileri tanıyabilmesi ve dolayısıyla nesne algılama modellerinin gerçek zamanlı ve açık senaryolarda uygulanabilirliğini ve konuşlandırma yeteneğini sınırlandırmasıdır. 

Devam edersek, yakın zamanda geliştirilen görme dili modelleri, açık kelime dağarcığının tespitini ele almak için dil kodlayıcılardan elde edilen damıtılmış kelime bilgisini kullanır. Her ne kadar bu çerçeveler açık kelime tespitinde geleneksel nesne tespit modellerinden daha iyi performans gösterse de, sınırlı kelime çeşitliliğine sahip eğitim verilerinin az bulunması nedeniyle hala sınırlı uygulanabilirliğe sahiptirler. Ayrıca, seçilen çerçeveler açık kelime nesnesi algılayıcılarını uygun ölçekte eğitir ve eğitim nesnesi algılayıcılarını bölge düzeyinde görme-dil ön eğitimi olarak sınıflandırır. Ancak yaklaşım, iki ana nedenden dolayı nesneleri gerçek zamanlı olarak tespit etme konusunda hala zorluk yaşıyor: uç cihazlar için karmaşık dağıtım süreci ve ağır hesaplama gereksinimleri. Olumlu tarafı, bu çerçevelerin, büyük dedektörlerin açık tanıma yetenekleriyle kullanılması için önceden eğitilmesinden olumlu sonuçlar elde ettiğidir. 

YOLO-World çerçevesi, yüksek verimliliğe sahip açık sözlük nesnesi algılamayı sağlamayı ve açık sözcük nesnesi algılaması için geleneksel YOLO dedektörlerinin verimliliğini artırmak için büyük ölçekli ön eğitim yaklaşımlarının olasılığını keşfetmeyi amaçlamaktadır. Nesne tespitinde önceki çalışmaların aksine, YOLO-World çerçevesi yüksek çıkarım hızlarıyla dikkat çekici bir verimlilik sergiliyor ve aşağı akışlı uygulamalara kolaylıkla uygulanabiliyor. YOLO-World modeli, geleneksel YOLO mimarisini takip eder ve önceden eğitilmiş bir CLIP metin kodlayıcının yeteneklerinden yararlanarak giriş metinlerini kodlar. Ayrıca YOLO-World çerçevesi, gelişmiş görsel-anlamsal temsiller için görüntü ve metin özelliklerini birbirine bağlamak amacıyla mimarisinde Yeniden Parametrelendirilebilir Vizyon-Dil Yolu Toplama Ağı (RepVL-PAN) bileşeni içerir. Çıkarım aşamasında, çerçeve metin kodlayıcıyı kaldırır ve metin yerleştirmelerini RepVL-PAN ağırlıklarına yeniden parametrelendirerek verimli dağıtım sağlar. Çerçeve aynı zamanda geleneksel YOLO modelleri için açık kelime ön eğitim yöntemlerini incelemek amacıyla kendi çerçevesinde bölge-metin karşılaştırmalı öğrenmeyi de içerir. Bölge-metin karşılaştırmalı öğrenme yöntemi, görüntü-metin verilerini, topraklama verilerini ve algılama verilerini bölge-metin çiftleri halinde birleştirir. Bunu temel alarak, bölge-metin çiftleri üzerinde önceden eğitilmiş YOLO-World çerçevesi, açık ve geniş kelime dağarcığının tespiti için dikkate değer yetenekler sergilemektedir. Ek olarak, YOLO-World çerçevesi aynı zamanda gerçek zamanlı ve gerçek dünya senaryolarında açık sözlük nesne algılamasının verimliliğini artırmak amacıyla bir istem-sonra algılama paradigmasını da araştırıyor. 

Aşağıdaki resimde gösterildiği gibi, geleneksel nesne algılayıcıları önceden tanımlanmış kategorilerle yakın dizi sabit sözcük algılamaya odaklanırken açık sözcük algılayıcıları, açık sözcük dağarcığı için kullanıcı istemlerini metin kodlayıcılarla kodlayarak nesneleri algılar. Buna karşılık, YOLO-World'ün istem-sonra-algılama yaklaşımı öncelikle kullanıcı istemlerini kodlayarak çevrimdışı bir sözcük dağarcığı (değişen ihtiyaçlar için değişen sözcük dağarcığı) oluşturur ve dedektörlerin istemleri yeniden kodlamak zorunda kalmadan çevrimdışı sözcük dağarcığını gerçek zamanlı olarak yorumlamasına olanak tanır. 

YOLO-World : Yöntem ve Mimari

Bölge-Metin Çiftleri

Geleneksel olarak nesne algılama çerçeveleri şunları içerir: YOLO Nesne dedektörleri ailesi, kategori etiketleri ve sınırlayıcı kutular içeren örnek açıklamaları kullanılarak eğitilir. Buna karşılık, YOLO-World çerçevesi, metnin nesnenin açıklaması, isim cümleleri veya kategori adı olabileceği örnek açıklamalarını bölge-metin çiftleri olarak yeniden formüle eder. YOLO-World çerçevesinin, karşılık gelen nesne yerleştirmeleriyle birlikte hem metinleri hem de görüntüleri girdi ve çıktı tahmin kutuları olarak benimsediğini belirtmekte fayda var. 

Model Mimarisi

YOLO-World modeli özünde, aşağıdaki görüntüde gösterildiği gibi bir Metin Kodlayıcı, bir YOLO dedektörü ve Yeniden Parametrelendirilebilir Görüş-Dil Yolu Toplama Ağı (RepVL-PAN) bileşeninden oluşur. 

Bir giriş metni için, metin kodlayıcı bileşeni, metni metin yerleştirmeleri halinde kodlar ve ardından YOLO dedektör bileşenindeki görüntü dedektörleri tarafından giriş görüntüsünden çok ölçekli özelliklerin çıkarılması gelir. Yeniden parametrelendirilebilir Görüş-Dil Yolu Toplama Ağı (RepVL-PAN) bileşeni daha sonra metin ve görüntü temsillerini geliştirmek için metin ve özellik yerleştirmeleri arasındaki çapraz mod birleşiminden yararlanır. 

YOLO Dedektörü

YOLO-World modeli, görüntü kodlayıcı olarak bir Darknet omurga bileşeni, nesne yerleştirme ve sınırlayıcı kutu regresyonu için bir kafa ve çok ölçekli özellik piramitleri için bir PAN veya Yol Saldırganlık Ağı içeren mevcut YOLOv8 çerçevesinin üzerine inşa edilmiştir. 

Metin Kodlayıcı

Belirli bir metin için YOLO-World modeli, belirli sayıda isme ve gömme boyutuna sahip önceden eğitilmiş bir CLIP Transformer metin kodlayıcıyı benimseyerek ilgili metin yerleştirmelerini çıkarır. YOLO-World çerçevesinin bir CLIP metin kodlayıcıyı benimsemesinin temel nedeni, metinleri görsel nesnelerle bağlamak için daha iyi bir görsel-anlamsal performans sunması ve geleneksel salt metin dil kodlayıcılarından önemli ölçüde daha iyi performans göstermesidir. Bununla birlikte, giriş metni bir başlık veya atıfta bulunan bir ifade ise, YOLO-World modeli, cümleleri çıkarmak için daha basit bir n-gram algoritmasını tercih eder. Bu ifadeler daha sonra metin kodlayıcıya beslenir. 

Metin Karşılaştırmalı Kafa

Ayrılmış kafa, daha önceki nesne algılama modelleri tarafından kullanılan bir bileşendir ve YOLO-World çerçevesi, sabit sayıda nesne için nesne yerleştirmelerini ve sınırlayıcı kutuları regresyonlamak üzere çift 3x3 evrişimli ayrılmış bir kafayı benimser. YOLO-World çerçevesi, L2 normalleştirme yaklaşımını ve metin yerleştirmelerini kullanarak nesne-metin benzerliğini elde etmek için bir metin karşılaştırmalı kafası kullanır. Ek olarak, YOLO-World modeli aynı zamanda bir kaydırma faktörü ve öğrenilebilir bir ölçeklendirme faktörü ile afin dönüşüm yaklaşımını kullanır; L2 normalleştirmesi ve afin dönüşümü, bölge metni eğitimi sırasında modelin stabilitesini artırır. 

Çevrimiçi Kelime Bilgisi Eğitimi

Eğitim aşamasında YOLO-World modeli, her mozaik örneği için her biri 4 görselden oluşan çevrimiçi bir kelime dağarcığı oluşturur. Model, mozaik görüntülerde yer alan tüm olumlu isimleri örnekler ve karşılık gelen veri kümesinden rastgele bazı olumsuz isimleri örnekler. Her örneğin kelime dağarcığı maksimum n isimden oluşur; varsayılan değer 80'dir. 

Çevrimdışı Kelime Çıkarımı

Çıkarım sırasında, YOLO-World modeli, modelin verimliliğini daha da artırmak için çevrimdışı kelime dağarcığı içeren bir istem-sonra-tespit stratejisi sunar. Kullanıcı ilk önce kategorileri ve hatta altyazıları içerebilecek bir dizi özel bilgi istemi tanımlar. YOLO-World modeli daha sonra bu istemleri kodlamak için metin kodlayıcıyı kullanarak çevrimdışı sözcük yerleştirmeleri elde eder. Sonuç olarak, çıkarım için çevrimdışı sözcük dağarcığı, modelin her girdi için hesaplama yapmaktan kaçınmasına yardımcı olur ve ayrıca modelin sözcük dağarcığını gereksinimlere göre esnek bir şekilde ayarlamasına olanak tanır. 

Yeniden parametrelendirilebilir Vizyon-Dil Yolu Saldırganlık Ağı (RevVL-PAN)

Aşağıdaki şekil, çok ölçekli özellik görüntüleri ile özellik piramidini oluşturmak için yukarıdan aşağıya ve aşağıdan yukarıya yolları izleyen, önerilen Yeniden Parametrelendirilebilir Görüş-Dil Yolu Saldırganlık Ağının yapısını göstermektedir. 

Metin ve görüntü özellikleri arasındaki etkileşimi geliştirmek için YOLO-World modeli, açık kelime dağarcığı yetenekleri için görsel-anlamsal temsilleri iyileştirme nihai amacı ile bir Görüntü Havuzlama Dikkati ve Metin Kılavuzlu CSP Katmanı (Aşamalar Arası Kısmi Katmanlar) önerir. Çıkarım sırasında YOLO-World modeli, etkili dağıtım için çevrimdışı sözcük yerleştirmelerini doğrusal veya evrişimsel katmanların ağırlıklarına yeniden parametrelendirir. 

Yukarıdaki şekilde görülebileceği gibi, YOLO-World modeli yukarıdan aşağıya veya aşağıdan yukarıya füzyondan sonra CSPLayer'ı kullanır ve metin rehberliğini çok ölçekli görüntü özelliklerine dahil ederek Metin Kılavuzlu CSPLayer'ı oluşturur, böylece genişler. CSPLayer'ı kullanın. Herhangi bir görüntü özelliği ve buna karşılık gelen metin yerleştirme için model, metin özelliklerini görüntü özelliklerinde toplamak amacıyla son darboğaz bloğundan sonra maksimum sigmoid dikkatini benimser. Güncellenen görüntü özelliği daha sonra aşamalar arası özelliklerle birleştirilir ve çıktı olarak sunulur. 

 Devam edersek, YOLO-World modeli, metin yerleştirmelerini görüntüye duyarlı bilgilerle geliştirmek için Görüntü Havuzu Dikkat katmanını sunarak metin yerleştirmeyi güncellemek için görüntü özelliklerini bir araya getirir. Model, çapraz dikkati doğrudan görüntü özellikleri üzerinde kullanmak yerine, 3x3 bölgeler elde etmek için çok ölçekli özellikler üzerinde maksimum havuzlamadan yararlanır ve modelin bir sonraki adımda metin yerleştirmelerini güncellemesiyle 27 yama belirteci elde edilir. 

Eğitim Öncesi Programlar

YOLO-World modeli iki temel ön eğitim şemasını takip eder: Bölge-Metin Karşılaştırmalı Kaybından Öğrenme ve Görüntü-Metin Verileriyle Sahte Etiketleme. Birincil ön eğitim şeması için model, belirli bir metin ve mozaik örnekleri için ek açıklamalarla birlikte nesne tahminlerinin çıktısını alır. YOLO-World çerçevesi, göreve atanan etiket atamasını takip edip bunlardan yararlanarak tahminleri temel gerçek açıklamalarıyla eşleştirir ve bireysel olumlu tahminleri, sınıflandırma etiketi olarak hizmet veren bir metin dizini ile atar. Öte yandan, Görüntü-Metin Verileri ile Sözde Etiketleme ön eğitim şeması, bölge-metin çiftleri oluşturmak için görüntü-metin çiftlerini kullanmak yerine otomatik bir etiketleme yaklaşımının kullanılmasını önermektedir. Önerilen etiketleme yaklaşımı üç adımdan oluşur: isim cümlelerini, sözde etiketlemeyi ve filtrelemeyi çıkarın. İlk adım, giriş metninden isim cümlelerini çıkarmak için n-gram algoritmasını kullanır; ikinci adım, tek tek görüntüler için verilen isim cümlesi için sahte kutular oluşturmak üzere önceden eğitilmiş bir açık kelime detektörünü benimser; üçüncü ve son adım ise n-gram algoritmasını kullanır. bölge-metin ve metin-görüntü çiftlerinin uygunluğunu değerlendirmek için önceden eğitilmiş bir CLIP çerçevesi; bunu takiben model, düşük alakalı sahte görüntüleri ve açıklamaları filtreler. 

YOLO-Dünya : Sonuçlar

YOLO-World modeli önceden eğitildikten sonra, sıfır atış ayarında doğrudan LVIS veri kümesi üzerinde değerlendirilir; LVIS veri kümesi 1200'den fazla kategoriden oluşur; bu, mevcut çerçevelerin test için kullandığı eğitim öncesi veri kümelerinden önemli ölçüde daha fazladır. geniş kelime dağarcığı tespitindeki performansları. Aşağıdaki şekil, YOLO-World çerçevesinin sıfır atış ayarında LVIS veri kümesindeki mevcut son teknoloji ürünü nesne algılama çerçevelerinden bazılarıyla performansını göstermektedir. 

Görülebileceği gibi, YOLO-World çerçevesi, daha fazla veri içeren Topraklama DINO, GLIP ve GLIPv2 gibi çerçevelerle bile, çıkarım hızları ve sıfır atış performansı açısından mevcut çerçevelerin çoğundan daha iyi performans gösteriyor. Genel olarak sonuçlar, yalnızca 13 milyon parametreye sahip YOLO-World-S gibi küçük nesne algılama modellerinin, dikkate değer açık kelime hazinesi yeteneklerine sahip görsel dil görevlerinde ön eğitim için kullanılabileceğini göstermektedir. 

Son Düşüncelerimiz

Bu yazımızda, YOLO veya You Only Look Once çerçevesinin yeteneklerini, çerçeveyi büyük ölçekli veri kümeleri üzerinde önceden eğiterek ve açık kelime tespit yetenekleriyle geliştirmeyi amaçlayan yenilikçi bir yaklaşım olan YOLO-World'den bahsettik. vizyon-dil modelleme yaklaşımı. Daha spesifik olmak gerekirse, YOLO-World çerçevesi, dilsel ve görsel bilgiler arasındaki etkileşimi kolaylaştırmak için bölge-metin karşılaştırmalı kaybıyla birlikte Yeniden Parametrelendirilebilir Görüş Dili Yolu Toplama Ağı veya RepVL-PAN'ın uygulanmasını önermektedir. YOLO-World çerçevesi, RepVL-PAN ve bölge metni karşılaştırmalı kaybını uygulayarak, sıfır atış ayarında çok çeşitli nesneleri doğru ve etkili bir şekilde algılayabilmektedir.

"Meslek olarak bir mühendis, ezbere bir yazar". Kunal, yapay zeka ve makine öğrenimine derin bir sevgi ve anlayışa sahip, ilgi çekici ve bilgilendirici belgeleriyle bu alanlardaki karmaşık kavramları basitleştirmeye kendini adamış bir teknik yazardır.