Yapay Zeka

YOLOv7: En Gelişmiş Nesne Algılama Algoritması mı?

Yayınlanan Temmuz 24, 2023

Kunal Kejriwal

6 Temmuz 2022, YOLOv7'nin piyasaya sürüldüğü gün olduğu için yapay zeka tarihinde bir dönüm noktası olarak işaretlenecek. Lansmanından bu yana YOLOv7, Görüntü İşleme geliştirici topluluğunun en sıcak konusu oldu ve doğru sebeplerden dolayı. YOLOv7 halihazırda nesne algılama endüstrisinde bir kilometre taşı olarak görülüyor.

Hemen sonra YOLOv7 makalesi yayınlandı, en hızlı ve en doğru gerçek zamanlı itiraz tespit modeli oldu. Ancak YOLOv7, öncekileri nasıl geride bırakıyor? YOLOv7'yi bilgisayarla görme görevlerini gerçekleştirmede bu kadar verimli yapan nedir?

Bu yazımızda YOLOv7 modelini inceleyeceğiz ve YOLOv7 neden artık endüstri standardı haline geliyor sorusunun cevabını bulmaya çalışacağız. Ancak buna cevap vermeden önce, nesne algılamanın kısa tarihine bir göz atmamız gerekecek.

Nesne Algılama Nedir?

Nesne algılama, bilgisayarla görmenin bir dalıdır bir görüntüdeki veya bir video dosyasındaki nesneleri tanımlayan ve konumlandıran. Nesne algılama, sürücüsüz arabalar, izlenen gözetim ve hatta robotik dahil olmak üzere çok sayıda uygulamanın yapı taşıdır.

Bir nesne algılama modeli iki farklı kategoride sınıflandırılabilir, tek atış dedektörleri, ve çoklu atış dedektörleri.

Gerçek Zamanlı Nesne Tespiti

YOLOv7'nin nasıl çalıştığını gerçekten anlamak için YOLOv7'nin ana amacını anlamamız çok önemlidir, "Gerçek Zamanlı Nesne Tespiti”. Gerçek Zamanlı Nesne Algılama, modern bilgisayar görüşünün önemli bir bileşenidir. Gerçek Zamanlı Nesne Algılama modelleri, ilgilenilen nesneleri gerçek zamanlı olarak tanımlamaya ve konumlandırmaya çalışır. Gerçek Zamanlı Nesne Tespiti modelleri, geliştiricilerin video veya canlı bir gözetim girişi gibi hareketli bir çerçevedeki ilgilenilen nesneleri izlemesini gerçekten verimli hale getirdi.

Gerçek Zamanlı Nesne Algılama modelleri, esasen geleneksel görüntü algılama modellerinden bir adım öndedir. İlki video dosyalarındaki nesneleri izlemek için kullanılırken, ikincisi bir görüntü gibi sabit bir çerçeve içindeki nesneleri bulur ve tanımlar.

Sonuç olarak, Gerçek Zamanlı Nesne Algılama modelleri, video analizi, otonom araçlar, nesne sayımı, çoklu nesne takibi ve çok daha fazlası için gerçekten verimlidir.

YOLO nedir?

YOLO veya “Sadece Bir Kez Bakarsın”, gerçek zamanlı nesne algılama modelleri ailesidir. YOLO konsepti ilk olarak 2016 yılında Joseph Redmon tarafından tanıtıldı ve mevcut nesne algılama algoritmalarından çok daha hızlı ve çok daha doğru olduğu için neredeyse anında şehrin konuşması oldu. YOLO algoritmasının bilgisayarla görme endüstrisinde bir standart haline gelmesi çok uzun sürmedi.

YOLO algoritmasının önerdiği temel kavram, gerçek zamanlı tahminler yapmak için sınırlayıcı kutuları ve sınıf olasılıklarını kullanan uçtan uca bir sinir ağı kullanmaktır. YOLO, sınıflandırıcıları yeniden tasarlayarak nesne algılamayı gerçekleştirmek için farklı bir yaklaşım önermesi anlamında önceki nesne algılama modelinden farklıydı.

Yaklaşımdaki değişiklik, YOLO'nun kendisi ve diğer gerçek zamanlı nesne algılama algoritmaları arasındaki performans farkı önemli olduğundan kısa sürede endüstri standardı haline gelmesiyle işe yaradı. Peki YOLO'nun bu kadar verimli olmasının sebebi neydi?

YOLO ile karşılaştırıldığında, o zamanki nesne algılama algoritmaları, olası ilgi alanlarını algılamak için Bölge Öneri Ağlarını kullandı. Tanıma işlemi daha sonra her bölge için ayrı ayrı gerçekleştirilmiştir. Sonuç olarak, bu modeller genellikle aynı görüntü üzerinde birden çok yineleme gerçekleştirdi ve bu nedenle doğruluk eksikliği ve daha yüksek yürütme süresi. Öte yandan, YOLO algoritması, tahmini bir kerede gerçekleştirmek için tamamen bağlı tek bir katman kullanır.

YOLO Nasıl Çalışır?

Bir YOLO algoritmasının nasıl çalıştığını açıklayan üç adım vardır.

Nesne Tespitini Tek Bir Regresyon Problemi Olarak Yeniden Çerçevelendirmek

MKS YOLO algoritması, nesne algılamayı tek bir regresyon problemi olarak yeniden çerçevelemeye çalışır, görüntü pikselleri dahil, sınıf olasılıklarına ve sınırlayıcı kutu koordinatlarına. Bu nedenle, algoritma, görüntülerdeki hedef nesneleri tahmin etmek ve bulmak için görüntüye yalnızca bir kez bakmalıdır.

Görüntünün Genel Olarak Nedenleri

Ayrıca, YOLO algoritması tahminlerde bulunduğunda, görüntüyü global olarak gerekçelendirir. YOLO algoritması, veri kümesi üzerinde eğitim ve test sırasında görüntünün tamamını gördüğü ve sınıflar ve bunların nasıl göründükleri hakkında bağlamsal bilgileri kodlayabildiği için, bölge önerisi tabanlı ve kaydırma tekniklerinden farklıdır.

YOLO'dan önce Fast R-CNN, bir görüntüdeki arka plan yamalarını bir nesneyle karıştırdığı için görüntüdeki daha geniş bağlamı göremeyen en popüler nesne algılama algoritmalarından biriydi. Fast R-CNN algoritmasıyla karşılaştırıldığında, YOLO %50 daha doğrudur arka plan hataları söz konusu olduğunda.

Nesnelerin Temsilini Genelleştirir

Son olarak, YOLO algoritması ayrıca bir görüntüdeki nesnelerin temsillerini genelleştirmeyi amaçlar. Sonuç olarak, bir YOLO algoritması doğal görüntülere sahip bir veri kümesi üzerinde çalıştırıldığında ve sonuçlar için test edildiğinde, YOLO mevcut R-CNN modellerinden büyük bir farkla daha iyi performans gösterdi. Bunun nedeni, YOLO'nun oldukça genelleştirilebilir olması, beklenmedik girdilere veya yeni alanlara uygulandığında çökme şansının zayıf olmasıdır.

YOLOv7: Yenilikler Neler?

Artık gerçek zamanlı nesne algılama modellerinin ne olduğu ve YOLO algoritmasının ne olduğu hakkında temel bir anlayışa sahip olduğumuza göre, YOLOv7 algoritmasını tartışmanın zamanı geldi.

Eğitim Sürecini Optimize Etme

YOLOv7 algoritması sadece model mimarisini optimize etmeye çalışmakla kalmaz, aynı zamanda eğitim sürecini de optimize etmeyi amaçlar. Nesne algılamanın doğruluğunu artırmak için optimizasyon modülleri ve yöntemleri kullanmayı, girişim maliyetini korurken eğitim maliyetini güçlendirmeyi amaçlar. Bu optimizasyon modülleri, eğitilebilir hediye çantası.

Kabadan İnceye Kılavuzlu Etiket Atama

YOLOv7 algoritması, geleneksel yerine yeni bir Kabadan İnceye Kılavuzlu Etiket Atama kullanmayı planlıyor Dinamik Etiket Ataması. Bunun nedeni, dinamik etiket atamasında, birden çok çıktı katmanına sahip bir modelin eğitiminin bazı sorunlara neden olmasıdır; bu sorunların en yaygın olanı, farklı dallar ve bunların çıktıları için dinamik hedeflerin nasıl atanacağıdır.

Model Yeniden Parametrelendirme

Model yeniden parametrelendirme, nesne algılamada önemli bir kavramdır ve kullanımı genellikle eğitim sırasında bazı sorunlarla takip edilir. YOLOv7 algoritması, kavramını kullanmayı planlıyor. model yeniden parametrelendirme politikalarını analiz etmek için gradyan yayılma yolu ağdaki farklı katmanlar için geçerlidir.

Genişletme ve Bileşik Ölçeklendirme

YOLOv7 algoritması ayrıca genişletilmiş ve bileşik ölçeklendirme yöntemleri gerçek zamanlı nesne tespiti için parametreleri ve hesaplamaları kullanmak ve etkin bir şekilde kullanmak.

YOLOv7 : İlgili Çalışma

Gerçek Zamanlı Nesne Tespiti

YOLO şu anda endüstri standardıdır ve gerçek zamanlı nesne dedektörlerinin çoğu YOLO algoritmalarını ve FCOS'u (Tam Evrişimli Tek Aşamalı Nesne Algılama) kullanır. Son teknoloji gerçek zamanlı nesne dedektörü genellikle aşağıdaki özelliklere sahiptir

Daha güçlü ve daha hızlı ağ mimarisi.
Etkili bir özellik entegrasyon yöntemi.
Doğru bir nesne algılama yöntemi.
Sağlam bir kayıp fonksiyonu.
Verimli bir etiket atama yöntemi.
Verimli bir eğitim yöntemi.

YOLOv7 algoritması, genellikle büyük miktarda veri gerektiren kendi kendini denetleyen öğrenme ve ayrıştırma yöntemlerini kullanmaz. Tersine, YOLOv7 algoritması eğitilebilir bir bedava çanta yöntemi kullanır.

Model Yeniden Parametrelendirme

Model yeniden parametreleştirme teknikleri, çoklu hesaplama modüllerini bir girişim aşamasında birleştiren bir topluluk tekniği olarak kabul edilir. Teknik ayrıca iki kategoriye ayrılabilir, model düzeyinde topluluk, ve modül düzeyinde topluluk.

Şimdi, nihai girişim modelini elde etmek için, model düzeyinde yeniden parametreleştirme tekniği iki uygulama kullanır. İlk uygulama, çok sayıda özdeş modeli eğitmek için farklı eğitim verilerini kullanır ve ardından eğitilen modellerin ağırlıklarının ortalamasını alır. Alternatif olarak, diğer uygulama, farklı yinelemeler sırasında modellerin ağırlıklarının ortalamasını alır.

Modül düzeyinde yeniden parametreleştirme son zamanlarda büyük bir popülerlik kazanıyor çünkü eğitim aşamasında bir modülü farklı modül dallarına veya farklı özdeş dallara ayırıyor ve ardından girişim sırasında bu farklı dalları eşdeğer bir modüle entegre etmeye devam ediyor.

Ancak, yeniden parametreleştirme teknikleri her türlü mimariye uygulanamaz. Bunun nedeni YOLOv7 algoritması, ilgili stratejileri tasarlamak için yeni model yeniden parametreleştirme tekniklerini kullanır farklı mimariler için uygundur.

Model Ölçeklendirme

Model ölçeklendirme, mevcut bir modeli farklı bilgi işlem cihazlarına uyacak şekilde büyütme veya küçültme işlemidir. Model ölçeklendirme genellikle katman sayısı gibi çeşitli faktörleri kullanır (derinlik), giriş görüntülerinin boyutu (çözüm), özellik piramitlerinin sayısı(sahne) ve kanal sayısı(genişlik). Bu faktörler, ağ parametreleri, girişim hızı, hesaplama ve modelin doğruluğu için dengeli bir takas sağlamada çok önemli bir rol oynar.

En sık kullanılan ölçeklendirme yöntemlerinden biri NAS veya Ağ Mimarisi Araması herhangi bir karmaşık kural olmaksızın arama motorlarından uygun ölçeklendirme faktörlerini otomatik olarak arar. NAS kullanmanın en büyük dezavantajı, uygun ölçeklendirme faktörlerini aramak için pahalı bir yaklaşım olmasıdır.

Hemen hemen her model yeniden parametreleştirme modeli, bireysel ve benzersiz ölçeklendirme faktörlerini bağımsız olarak analiz eder ve hatta bu faktörleri bağımsız olarak optimize eder. Bunun nedeni, NAS mimarisinin ilişkili olmayan ölçeklendirme faktörleriyle çalışmasıdır.

Birleştirme tabanlı modellerin şunun gibi olduğunu belirtmekte fayda var: VoVNet or Yoğun Ağ modellerin derinliği ölçeklendiğinde birkaç katmanın giriş genişliğini değiştirin. YOLOv7, önerilen birleştirme tabanlı bir mimari üzerinde çalışır ve bu nedenle bir bileşik ölçeklendirme yöntemi kullanır.

Yukarıda bahsedilen rakam, genişletilmiş verimli katman toplama ağları (E-ELAN) farklı modellerde. Önerilen E-ELAN yöntemi, orijinal mimarinin gradyan iletim yolunu korur, ancak grup evrişimini kullanarak eklenen özelliklerin kardinalitesini artırmayı amaçlar. Süreç, farklı haritalar tarafından öğrenilen özellikleri geliştirebilir ve ayrıca hesaplamaların ve parametrelerin kullanımını daha verimli hale getirebilir.

YOLOv7 Mimarisi

YOLOv7 modeli, temel olarak YOLOv4, YOLO-R ve Scaled YOLOv4 modellerini kullanır. YOLOv7, sonuçları iyileştirmek ve modeli daha doğru hale getirmek için bu modeller üzerinde yapılan deneylerin bir sonucudur.

Genişletilmiş Verimli Katman Toplama Ağı veya E-ELAN

E-ELAN, YOLOv7 modelinin temel yapı taşıdır ve ağ verimliliğine ilişkin mevcut modellerden türetilmiştir. ELAN.

Verimli bir mimari tasarlarken göz önünde bulundurulması gereken ana hususlar parametre sayısı, hesaplama yoğunluğu ve hesaplama miktarıdır. Diğer modeller ayrıca giriş/çıkış kanal oranının etkisi, mimari ağdaki dallar, ağ girişim hızı, evrişimli ağ tensörlerindeki öğe sayısı ve daha fazlası gibi faktörleri dikkate alır.

MKS CSPVoNet model sadece yukarıda belirtilen parametreleri dikkate almaz, aynı zamanda farklı katmanların ağırlıklarını etkinleştirerek daha çeşitli özellikleri öğrenmek için gradyan yolunu da analiz eder. Yaklaşım, müdahalelerin çok daha hızlı ve doğru olmasını sağlar. bu ELAN mimarisi, ağın öğrenmede ve yakınsamada daha etkili olabilmesi için en kısa gradyan yolunu kontrol etmek için verimli bir ağ tasarlamayı amaçlar.

ELAN, hesaplama bloklarının istifleme sayısına ve gradyan yol uzunluğuna bakılmaksızın zaten kararlı bir aşamaya ulaşmıştır. Hesaplama blokları sınırsızca istiflenirse kararlı durum bozulabilir ve parametre kullanım oranı azalır. bu önerilen E-ELAN mimarisi, genişletme, karıştırma ve birleştirme kardinalitesini kullandığı için sorunu çözebilir orijinal gradyan yolunu korurken ağın öğrenme yeteneğini sürekli olarak geliştirmek.

Ayrıca, E-ELAN mimarisini ELAN ile karşılaştırırken, geçiş katmanının mimarisi değişmeden kalırken tek fark hesaplama bloğundadır.

E-ELAN, hesaplama bloklarının önemliliğini genişletmeyi ve kullanarak kanalı genişletmeyi önerir. grup evrişimi. Özellik haritası daha sonra hesaplanacak ve grup parametresine göre gruplar halinde karıştırılacak ve daha sonra birlikte birleştirilecektir. Her gruptaki kanal sayısı orijinal mimarideki ile aynı kalacaktır. Son olarak, kardinaliteyi gerçekleştirmek için özellik haritaları grupları eklenecektir.

Birleştirme Tabanlı Modeller için Model Ölçeklendirme

Model ölçeklendirme yardımcı olur modellerin özniteliklerini ayarlama Bu, gereksinimlere göre ve farklı girişim hızlarını karşılamak için farklı ölçeklerde modeller oluşturmaya yardımcı olur.

Şekil, farklı birleştirme tabanlı modeller için model ölçeklendirmeden bahsediyor. Şekil (a) ve (b)'de görebileceğiniz gibi, hesaplama bloğunun çıktı genişliği, modellerin derinlik ölçeklendirmesindeki artışla artar. Sonuç olarak, iletim katmanlarının giriş genişliği artar. Bu yöntemler birleştirme tabanlı mimaride uygulanırsa, ölçekleme işlemi derinlemesine gerçekleştirilir ve şekil (c)'de gösterilmektedir.

Buradan, birleştirme tabanlı modeller için ölçekleme faktörlerinin bağımsız olarak analiz edilmesinin mümkün olmadığı, birlikte ele alınması veya analiz edilmesi gerektiği sonucuna varılabilir. Bu nedenle, birleştirme tabanlı bir model için, karşılık gelen bileşik model ölçekleme yöntemini kullanmak uygundur. Ayrıca derinlik faktörü ölçeklendirilirken bloğun çıkış kanalı da ölçeklendirilmelidir.

Eğitilebilir Ücretsiz Eşya Çantası

Bir paket bedava, geliştiricilerin tanımlamak için kullandıkları bir terimdir. eğitim stratejisini veya maliyetini değiştirebilecek bir dizi yöntem veya teknik model doğruluğunu artırmak amacıyla. Peki, YOLOv7'deki bu eğitilebilir bedava çantalar nelerdir? Bir bakalım.

Planlanmış Yeniden Parametrelenmiş Evrişim

YOLOv7 algoritması, belirlemek için gradyan akış yayılma yollarını kullanır. yeniden parametrelenmiş evrişim ile bir ağı ideal olarak nasıl birleştirirsiniz. YOLov7'nin bu yaklaşımı bir karşı koyma girişimidir. RepConv algoritması VGG modelinde sorunsuz performans göstermesine rağmen, doğrudan DenseNet ve ResNet modellerine uygulandığında düşük performans gösteriyor.

Evrişimli bir katmandaki bağlantıları tanımlamak için, RepConv algoritması, 3×3 evrişimi ve 1×1 evrişimi birleştirir. Algoritmayı, performansını ve mimarisini analiz edersek, RepConv'un DenseNet'te birleştirme ve ResNet'te artık.

Yukarıdaki görsel, planlanmış yeniden parametrelendirilmiş bir modeli göstermektedir. YOLov7 algoritmasının, ağdaki birleştirme veya artık bağlantılara sahip bir katmanın RepConv algoritmasında kimlik bağlantısına sahip olmaması gerektiğini tespit ettiği görülebilir. Sonuç olarak, kimlik bağlantısı olmayan RepConvN ile geçiş yapmak kabul edilebilir.

Yardımcı için Kaba ve Kurşun Kaybı için Para Cezası

Derin Denetim genellikle derin ağların eğitim sürecinde kullanımını bulan bir bilgisayar bilimi dalıdır. Derin denetimin temel ilkesi, ağın orta katmanlarına ek bir yardımcı başlık ekler kılavuz olarak asistan kaybı ile sığ ağ ağırlıkları ile birlikte. YOLOv7 algoritması, nihai çıktıdan sorumlu olan kafayı lider kafa olarak ifade eder ve yardımcı kafa, eğitime yardımcı olan kafadır.

Yol boyunca YOLOv7, etiket ataması için farklı bir yöntem kullanır. Geleneksel olarak, etiket ataması, doğrudan temel gerçeğe atıfta bulunarak ve belirli bir kurallar dizisi temelinde etiketler oluşturmak için kullanılmıştır. Ancak, son yıllarda, tahmin girdisinin dağılımı ve kalitesi, güvenilir bir etiket oluşturmak için önemli bir rol oynamaktadır. YOLOv7, nesnenin esnek bir etiketini oluşturur sınırlayıcı kutu ve temel gerçeğin tahminlerini kullanarak.

Ayrıca, YOLOv7 algoritmasının yeni etiket atama yöntemi, hem lider hem de yardımcı kafaya rehberlik etmek için lider başın tahminlerini kullanır. Etiket atama yönteminin önerilen iki stratejisi vardır.

Lead Head Kılavuzlu Etiket Atayıcı

Strateji, müşteri adayının tahmin sonuçlarına ve temel gerçeğe dayalı olarak hesaplamalar yapar ve ardından esnek etiketler oluşturmak için optimizasyonu kullanır. Bu yumuşak etiketler daha sonra hem kılavuz başlığı hem de yardımcı başlık için eğitim modeli olarak kullanılır.

Strateji, öncü liderin daha büyük bir öğrenme kabiliyetine sahip olması nedeniyle, ürettiği etiketlerin daha temsili olması ve kaynak ile hedef arasında korelasyon olması gerektiği varsayımı üzerinde çalışır.

Kabadan İnceye Kurşun Kafa Kılavuzlu Etiket Atayıcı

Bu strateji aynı zamanda müşteri adayının tahmin sonuçlarına ve temel gerçeğe dayalı olarak hesaplamalar yapar ve ardından esnek etiketler oluşturmak için optimizasyonu kullanır. Ancak, önemli bir fark var. Bu stratejide, iki set geçici etiket vardır, kaba seviye, ve ince etiket.

Kaba etiket, pozitif numunenin kısıtlamaları gevşetilerek üretilir.

daha fazla ızgarayı pozitif hedefler olarak ele alan atama süreci. Yardımcı başın öğrenme gücünün daha zayıf olması nedeniyle bilgi kaybı riskinden kaçınmak için yapılır.

Yukarıdaki şekil, YOLOv7 algoritmasında eğitilebilir bir hediye paketinin kullanımını açıklamaktadır. Yardımcı kafa için kaba ve kurşun kafa için iyi gösterir. Yardımcı Başlıklı(b) Modeli Normal Model (a) ile karşılaştırdığımızda (b)'deki şemada yardımcı başlık varken (a)'da olmadığını göreceğiz.

Şekil (c) ortak bağımsız etiket atayıcıyı gösterirken, şekil (d) ve şekil (e) sırasıyla Kılavuz Kılavuzlu Atayıcıyı ve YOLOv7 tarafından kullanılan Kabadan İnceye Kılavuzlu Atayıcıyı temsil eder.

Diğer Eğitilebilir Hediye Çantası

Yukarıda belirtilenlere ek olarak, YOLOv7 algoritması, başlangıçta onlar tarafından önerilmemiş olsalar da, ek ücretsiz çantalar kullanır. Bunlar

Conv-Bn-Aktivasyon Teknolojisinde Toplu Normalleştirme: Bu strateji, evrişimli bir katmanı doğrudan yığın normalleştirme katmanına bağlamak için kullanılır.
YOLOR'da Örtük Bilgi: YOLOv7, stratejiyi Convolutional özellik haritasıyla birleştirir.
EMA Modeli: EMA modeli, YOLOv7'de nihai referans modeli olarak kullanılır, ancak birincil kullanımı ortalama öğretmen yönteminde kullanılacaktır.

YOLOv7 : Deneyler

Deneysel kurulum

YOLOv7 algoritması, Eğitim ve doğrulama için Microsoft COCO veri kümesi nesne algılama modeli ve bu deneylerin tümü önceden eğitilmiş bir model kullanmaz. Geliştiriciler, eğitim için 2017 tren veri setini ve hiperparametreleri seçmek için 2017 doğrulama veri setini kullandı. Son olarak, YOLOv7 nesne algılama sonuçlarının performansı, nesne algılama için en gelişmiş algoritmalarla karşılaştırılır.

Geliştiriciler, aşağıdakiler için temel bir model tasarladı: uç GPU (YOLOv7-tiny), normal GPU (YOLOv7) ve bulut GPU (YOLOv7-W6). Ayrıca YOLOv7 algoritması, farklı hizmet gereksinimlerine göre model ölçeklendirme için temel bir model kullanır ve farklı modeller alır. YOLOv7 algoritması için, yığın ölçeklendirme boyunda yapılır ve modelin derinliğini ve genişliğini yükseltmek için önerilen bileşikler kullanılır.

taban

YOLOv7 algoritması, önceki YOLO modellerini ve temel olarak YOLOR nesne algılama algoritmasını kullanır.

Yukarıdaki şekil, YOLOv7 modelinin temel çizgisini diğer nesne algılama modelleriyle karşılaştırır ve sonuçlar oldukça belirgindir. ile karşılaştırıldığında YOLOv4 algoritması, YOLOv7 yalnızca %75 daha az parametre kullanmakla kalmaz, aynı zamanda %15 daha az hesaplama kullanır ve %0.4 daha yüksek doğruluğa sahiptir.

Son Teknoloji Nesne Dedektörü Modelleri ile Karşılaştırma

Yukarıdaki şekil, YOLOv7'nin mobil ve genel GPU'lar için son teknoloji nesne algılama modelleriyle karşılaştırıldığında sonuçları göstermektedir. YOLOv7 algoritması tarafından önerilen yöntemin en iyi hız-doğruluk değiş tokuş puanına sahip olduğu gözlemlenebilir.

Ablasyon Çalışması: Önerilen Bileşik Ölçekleme Yöntemi

Yukarıda gösterilen şekil, modeli büyütmek için farklı stratejiler kullanmanın sonuçlarını karşılaştırır. YOLOv7 modelindeki ölçekleme stratejisi, hesaplama bloğunun derinliğini 1.5 kat ve genişliğini 1.25 kat ölçeklendirir.

Yalnızca derinliği artıran bir modelle karşılaştırıldığında, YOLOv7 modeli daha az parametre ve hesaplama gücü kullanarak %0.5 oranında daha iyi performans gösteriyor. Öte yandan, yalnızca derinliği ölçeklendiren modellerle karşılaştırıldığında, YOLOv7'nin doğruluğu %0.2 oranında iyileştirilmiştir, ancak parametre sayısının %2.9 ve hesaplamanın %1.2 oranında ölçeklenmesi gerekmektedir.

Önerilen Planlanmış Yeniden Parametrelenmiş Model

Önerilen yeniden parametreleştirilmiş modelinin genelliğini doğrulamak için, YOLOv7 algoritması, doğrulama için kalıntı tabanlı ve birleştirme tabanlı modellerde kullanır. Doğrulama işlemi için YOLOv7 algoritması kullanır 3'lü ELAN birleştirme tabanlı model için ve kalıntı tabanlı model için CSPDarknet.

Birleştirme tabanlı model için algoritma, 3 yığınlı ELAN'daki 3×3 evrişimli katmanları RepConv ile değiştirir. Aşağıdaki şekil, Planned RepConv ve 3 yığınlı ELAN'ın ayrıntılı yapılandırmasını göstermektedir.

Ayrıca, artık tabanlı modelle uğraşırken YOLOv7 algoritması ters bir karanlık blok kullanır çünkü orijinal karanlık blok 3×3 evrişim bloğuna sahip değildir. Aşağıdaki şekil, 3×3 ve 1×1 konvolüsyonel katmanın konumlarını tersine çeviren Tersine Çevrilmiş CSPDarknet mimarisini göstermektedir.

Yardımcı Başkan için Önerilen Asistan Kaybı

YOLOv7 modeli, yardımcı kafa için asistan kaybı için, yardımcı kafa ve ana başlık yöntemleri için bağımsız etiket atamasını karşılaştırır.

Yukarıdaki şekil, önerilen yardımcı başlık üzerindeki çalışmanın sonuçlarını içermektedir. Asistan kaybındaki artışla birlikte modelin genel performansının arttığı görülmektedir. Ayrıca, YOLOv7 modeli tarafından önerilen lider kılavuzlu etiket ataması, bağımsız müşteri adayı atama stratejilerinden daha iyi performans gösterir.

YOLOv7 Sonuçları

Yukarıdaki deneylere dayanarak, YOLov7'nin diğer nesne algılama algoritmalarıyla karşılaştırıldığında performansının sonucu burada.

Yukarıdaki şekil, YOLOv7 modelini diğer nesne algılama algoritmaları ile karşılaştırmaktadır ve YOLOv7'nin diğer itiraz algılama modellerini geride bıraktığı açıkça görülmektedir. Ortalama Kesinlik (AP) v/s toplu girişim.

Ayrıca, aşağıdaki şekil, YOLOv7 v/s'nin diğer gerçek zamanlı itiraz algılama algoritmalarının performansını karşılaştırmaktadır. YOLOv7, genel performans, doğruluk ve verimlilik açısından bir kez daha diğer modelleri geride bırakıyor.

İşte YOLOv7 sonuçları ve performanslarından bazı ek gözlemler.

YOLOv7-Tiny, 6 milyondan fazla parametre ile YOLO ailesinin en küçük modelidir. YOLOv7-Tiny'nin Ortalama Hassasiyeti %35.2'dir ve karşılaştırılabilir parametrelerle YOLOv4-Tiny modellerinden daha iyi performans gösterir.
YOLOv7 modeli 37 milyondan fazla parametreye sahiptir ve YOLov4 gibi daha yüksek parametrelere sahip modellerden daha iyi performans gösterir.
YOLOv7 modeli 5 ile 160 FPS aralığında en yüksek mAP ve FPS oranına sahiptir.

Sonuç

YOLO veya Bir Kez Bakarsınız, modern bilgisayar görüşünde son teknoloji nesne algılama modelidir. YOLO algoritması, yüksek doğruluğu ve verimliliği ile bilinir ve sonuç olarak, gerçek zamanlı nesne algılama endüstrisinde geniş uygulama alanı bulur. 2016'da ilk YOLO algoritmasının kullanıma sunulmasından bu yana, deneyler, geliştiricilerin modeli sürekli olarak iyileştirmesine olanak sağladı.

YOLOv7 modeli, YOLO ailesinin en son üyesidir ve bugüne kadarki en güçlü YOLO algoritmasıdır. Bu yazımızda YOLOv7'nin temellerinden bahsettik ve YOLOv7'yi bu kadar verimli yapan şeyin ne olduğunu açıklamaya çalıştık.

Kunal Kejriwal

"Meslek olarak bir mühendis, ezbere bir yazar". Kunal, yapay zeka ve makine öğrenimine derin bir sevgi ve anlayışa sahip, ilgi çekici ve bilgilendirici belgeleriyle bu alanlardaki karmaşık kavramları basitleştirmeye kendini adamış bir teknik yazardır.