Yapay Zekâ
YOLOv7: En Gelişmiş Nesne Algılama Algoritması mı?

6 Temmuz 2022, YOLOv7’nin yayınlandığı gün, AI tarihindeki bir dönüm noktası olarak kaydedilecek. Yayınlanmasından bu yana, YOLOv7, Bilgisayarlı Görüntü geliştirici topluluğunda en sıcak konu oldu ve bunun sebepleri doğru. YOLOv7, nesne algılama endüstrisinde already bir dönüm noktası olarak kabul ediliyor.
YOLOv7 makalesi yayınlandıktan shortly after, en hızlı ve en doğru gerçek zamanlı nesne algılama modeli olarak ortaya çıktı. Ancak YOLOv7, seleflerini nasıl geride bırakıyor? YOLOv7, bilgisayar görme görevlerini gerçekleştirirken neden bu kadar verimli?
Bu makalede, YOLOv7 modelini analiz etmeye çalışacağız ve YOLOv7’nin neden endüstri standardı haline geldiğini cevaplamaya çalışacağız. Ancak bunu yapmadan önce, nesne algılama tarihine kısa bir bakış atmalıyız.
Nesne Algılama Nedir?
Nesne algılama, bilgisayar görme dalının bir parçası olarak, bir görüntüde veya video dosyasında nesneleri tanımlar ve konumlandırır. Nesne algılama, otonom araçlar, izlenen güvenlik ve hatta robotik gibi birçok uygulamanın temel taşıdır.
Bir nesne algılama modeli, iki farklı kategoriye ayrılabilir, tek atışlı dedektörler, ve çok atışlı dedektörler.
Gerçek Zamanlı Nesne Algılama
YOLOv7’nin nasıl çalıştığını gerçekten anlamak için, YOLOv7’nin ana hedefini anlamak önemlidir, yani Gerçek Zamanlı Nesne Algılama”. Gerçek Zamanlı Nesne Algılama, modern bilgisayar görme’nin temel bir bileşenidir. Gerçek Zamanlı Nesne Algılama modelleri, ilgi nesnelerini gerçek zamanlı olarak tanımlamaya ve konumlandırmaya çalışırlar. Gerçek Zamanlı Nesne Algılama modelleri, geliştiricilerin video gibi hareketli bir karede veya canlı bir güvenlik girişinde ilgi nesnelerini takip etmelerini çok verimli hale getirdi.

Gerçek Zamanlı Nesne Algılama modelleri, geleneksel görüntü algılama modellerinden bir adım öndedir. İlki, video dosyalarında nesneleri takip etmek için kullanılırken, diğeri bir görüntüdeki nesneleri bir durağan kare içinde tanımlar ve konumlandırır.
Sonuç olarak, Gerçek Zamanlı Nesne Algılama modelleri, video analitiği, otonom araçlar, nesne sayma, çoklu nesne takibi ve daha fazlası için çok verimlidir.
YOLO Nedir?
YOLO veya Sadece Bir Kez Bak, gerçek zamanlı nesne algılama modelleri ailesidir. YOLO kavramı ilk olarak 2016 yılında Joseph Redmon tarafından tanıtıldı ve hemen hemen anında bilgisayar görme endüstrisinde bir standart haline geldi.

YOLO algoritmasının temel kavramı, gerçek zamanlı tahminlerde bulunmak için sınırlayıcı kutular ve sınıf olasılıkları kullanarak bir uçtan uca sinir ağı kullanmaktır. YOLO, önceki nesne algılama modelinden farklıydı, çünkü nesne algılama yapmak için sınıflandırıcıları yeniden amaçlamak için farklı bir yaklaşım öneriyordu.
Yaklaşım işe yaradı, çünkü YOLO kısa sürede endüstri standardı haline geldi ve performansı, diğer gerçek zamanlı nesne algılama algoritmalarıyla arasındaki fark önemliydi. Ancak YOLO’nun neden bu kadar verimli olduğu nedeniydi?
YOLO ile karşılaştırıldığında, o zamanlar kullanılan nesne algılama algoritmaları, olası ilgi bölgelerini tespit etmek için Bölge Öneri Ağlarını kullanıyordu. Tanıma işlemi daha sonra her bölge için ayrı ayrı gerçekleştiriliyordu. Sonuç olarak, bu modeller genellikle aynı görüntüde birden fazla iteration gerçekleştirdi ve bu nedenle doğruluk eksikliği ve daha yüksek yürütme zamanı vardı. Öte yandan, YOLO algoritması tek bir tam bağlantılı katman kullanarak bir defada tahmini gerçekleştirir.
YOLO Nasıl Çalışır?
Bir YOLO algoritmasının nasıl çalıştığını açıklayan üç adım vardır.
Nesne Algılamayı Tek Bir Regresyon Problemi Olarak Yeniden Çerçevelendirme
YOLO algoritması, nesne algılamayı bir regresyon problemi olarak yeniden çerçevelendirmeye çalışır, görüntü piksellerini, sınıf olasılıklarını ve sınırlayıcı kutu koordinatlarını içerir. Bu nedenle, algoritmanın hedef nesneleri tahmin etmek ve konumlandırmak için görüntüye sadece bir kez bakması gerekir.
Görüntüyü Küresel Olarak İnceleme
Ayrıca, YOLO algoritması tahminler yaparken görüntüyü küresel olarak inceler. Bölge öneri tabanlı ve kaydırma tekniklerinden farklıdır, çünkü YOLO algoritması, eğitim ve test sırasında tüm görüntüyü görür ve sınıflar hakkında ve nasıl göründükleri hakkında bağlamsal bilgiyi kodlayabilir.
YOLO’dan önce, Fast R-CNN, en popüler nesne algılama algoritmalarından biriydi ve görüntüdeki daha büyük bağlamı göremiyordu, çünkü bir görüntüdeki arka plan parçalarını nesne olarak yanlışlıkla tanıyordu. Fast R-CNN algoritması ile karşılaştırıldığında, YOLO, arka plan hataları bakımından %50 daha doğrudur.
Nesnelerin Temsillerini Genelleştirme
Son olarak, YOLO algoritması, bir görüntüdeki nesnelerin temsillerini genelleştirmeyi amaçlar. Sonuç olarak, bir YOLO algoritması doğal görüntülerle bir veri setinde çalıştırıldığında ve sonuçları test edildiğinde, YOLO, mevcut R-CNN modellerini geniş bir marjla geride bıraktı. YOLO, yüksek oranda genelleştirilebilir olduğu için, beklenmedik girişler veya yeni alanlara uygulandığında bozulma olasılığı düşüktü.
YOLOv7: Yeni Özellikler
Şimdi gerçek zamanlı nesne algılama modellerinin ve YOLO algoritmasının temel kavramlarını anladığımıza göre, YOLOv7 algoritmasını tartışma zamanı geldi.
Eğitim Sürecini Optimizasyon
YOLOv7 algoritması, sadece model mimarisini optimize etmeye çalışmakla kalmaz, aynı zamanda eğitim sürecini optimize etmeye çalışır. Eğitim maliyetini güçlendirirken, modelin doğruluğunu artırmak için optimizasyon modülleri ve yöntemlerini kullanmayı hedefler. Bu optimizasyon modülleri, eğitim için ücretsiz bir torba olarak adlandırılabilir.
Kaba İnce Lead Kılavuzlu Etiket Atama
YOLOv7 algoritması, geleneksel Dinamik Etiket Atama yerine, yeni bir Kaba İnce Lead Kılavuzlu Etiket Atama kullanmayı planlar. Bu, dinamik etiket atama ile birlikte, birden fazla çıkış katmanı olan bir modeli eğittiğinde bazı sorunlara neden olur, en yaygın olanı, farklı dallar ve çıkışları için dinamik hedefleri nasıl atayacağının belirlenmesidir.
Model Yeniden Parametreleme
Model yeniden parametreleme, nesne algılamada önemli bir kavramdır ve genellikle bazı sorunlarla birlikte kullanılır. YOLOv7 algoritması, farklı katmanlara uygulanabilecek model yeniden parametreleme politikalarını analiz etmek için gradyan iletim yolu kavramını kullanmayı planlar.
Genişletme ve Bileşik Ölçeklendirme
YOLOv7 algoritması, ayrıca gerçek zamanlı nesne algılamada parametreleri ve hesaplamaları etkili bir şekilde kullanmak için genişletme ve bileşik ölçeklendirme yöntemlerini tanıtır.

YOLOv7: İlişkili Çalışmalar
Gerçek Zamanlı Nesne Algılama
YOLO, şu anda endüstri standardıdır ve çoğu gerçek zamanlı nesne dedektörü, YOLO algoritmalarını ve FCOS (Tamamen Konvolüsyonel Bir Aşama Nesne Tespiti) kullanır. Bir devlet-sanat gerçek zamanlı nesne dedektörü genellikle aşağıdaki özellikleri taşır
- Daha güçlü ve daha hızlı ağ mimarisi.
- Etkili bir özellik entegrasyonu yöntemi.
- Doğru bir nesne algılama yöntemi.
- Dayanıklı bir kayıp fonksiyonu.
- Etkili bir etiket atama yöntemi.
- Etkili bir eğitim yöntemi.
YOLOv7 algoritması, genellikle büyük miktarda veri gerektiren kendi kendine öğrenme ve damlama yöntemlerini kullanmaz. Bunun yerine, YOLOv7 algoritması, eğitim için ücretsiz bir torba yöntemini kullanır.
Model Yeniden Parametreleme
Model yeniden parametreleme teknikleri, bir tür ansambl teknik olarak kabul edilir ve birden fazla hesaplama modülünü birleştirir. Bu teknik, model düzeyinde ansambl ve modül düzeyinde ansambl olarak ikiye ayrılabilir.
Şimdi, final interferans modelini elde etmek için, model düzeyinde yeniden parametreleme tekniği iki uygulamayı kullanır. İlk uygulama, birden fazla aynı modeli farklı eğitim verilerine eğitmek için kullanılır ve daha sonra eğitilen modellerin ağırlıklarını ortalamalar. Alternatif olarak, diğer uygulama, modellerin ağırlıklarını eğitim sırasında farklı iterasyonlarda ortalamalar.
Modül düzeyinde yeniden parametreleme, son zamanlarda popülerlik kazanmaktadır, çünkü bir modülü eğitim aşamasında farklı modül dalları veya aynı dallara ayırır ve daha sonra bunları birleştirir.
Ancak, yeniden parametreleme teknikleri tüm mimariye uygulanamaz. Bu nedenle, YOLOv7 algoritması, farklı mimariler için uygun stratejiler tasarlamak amacıyla yeni model yeniden parametreleme tekniklerini kullanır.
Model Ölçeklendirme
Model ölçeklendirme, mevcut bir modeli farklı hesaplama cihazlarına uyacak şekilde ölçeklendirme işlemidir. Model ölçeklendirme genellikle, katman sayısı (derinlik), girdi görüntü boyutu (çözünürlük), özellik piramitleri sayısı (aşama) ve kanallar sayısı (genişlik) gibi faktörleri kullanır. Bu faktörler, ağ parametreleri, interferans hızı, hesaplama ve modelin doğruluğu için dengeli bir ticaret sağlamakta önemli bir rol oynar.
En yaygın kullanılan ölçeklendirme yöntemlerinden biri, Ağ Mimarisi Arama (NAS)‘dir, bu, arama motorlarından uygun ölçeklendirme faktörlerini otomatik olarak arar, ancak NAS’ın önemli bir dezavantajı, uygun ölçeklendirme faktörlerini aramanın pahalı bir yaklaşım olmasıdır.
Neredeyse her model yeniden parametreleme modeli, bağımsız ve benzersiz ölçeklendirme faktörlerini ayrı ayrı analiz eder ve ayrıca bu faktörleri bağımsız olarak optimize eder. Bu, NAS mimarisinin não-korelasyonlu ölçeklendirme faktörleriyle çalışması nedeniyle böyle olmaktadır.
Karma model gibi VoVNet veya DenseNet, modelin derinliğini ölçeklendirirken, bazı katmanların girdi genişliğini değiştirir. YOLOv7, önerilen birleştirme tabanlı mimari üzerinde çalışır ve bu nedenle bileşik ölçeklendirme yöntemini kullanır.

Yukarıdaki şekil, farklı modellerin genişletilmiş etkili katman birleştirme ağlarını (E-ELAN) karşılaştırır. Önerilen E-ELAN yöntemi, orijinal mimarinin gradyan iletim yolunu korur, ancak grup konvolüsyon kullanarak eklenen özelliklerin kardinalitesini artırmayı hedefler. Bu işlem, farklı haritalar tarafından öğrenilen özellikleri güçlendirebilir ve hesaplamaların ve parametrelerin kullanımını daha verimli hale getirebilir.
YOLOv7 Mimarisi
YOLOv7 modeli, YOLOv4, YOLO-R ve Ölçekli YOLOv4 modellerini temel alır. YOLOv7, bu modeller üzerinde deneyler yaparak sonuçları iyileştirmek ve modeli daha doğru hale getirmek için yapılan bir sonuçtur.
Genişletilmiş Etkili Katman Birleştirme Ağı veya E-ELAN
E-ELAN, YOLOv7 modelinin temel yapı taşıdır ve esas olarak mevcut ağ verimliliği modellerinden, özellikle ELAN‘den türetilmiştir.
Etkin bir mimari tasarlanırken, temel dikkate alınan faktörler, parametre sayısı, hesaplama yoğunluğu ve hesaplamaların miktarıdır. Diğer modeller ayrıca, girdi/çıkış kanal oranı, ağ mimarisindeki dallar, ağ interferans hızı, konvolüsyonel ağın tensörlerindeki eleman sayısı ve daha fazlası gibi faktörleri dikkate alır.
CSPVoNet modeli, yukarıda belirtilen parametreleri dikkate alır, ancak ayrıca ağırlıkların öğrenilmesi için farklı katmanların gradyan yolunu analiz eder. Bu yaklaşım, interferansları daha hızlı ve daha doğru hale getirir. ELAN mimarisi, öğrenmeyi ve yakınsamayı daha etkili hale getirmek için ağın en kısa ve en uzun gradyan yolunu kontrol etmeyi hedefler.
ELAN, hesaplamalı blokların yığın sayısı ne olursa olsun, already bir dengeli durumdadır ve gradyan yolu uzunluğu. İstikrarlı durum, hesaplama bloklarının sınırsız bir şekilde yığılmasıyla bozulabilir ve parametre kullanım oranı azalabilir. Önerilen E-ELAN mimarisi, bu sorunu çözebilir, çünkü genişleme, karıştırma ve birleştirme kardinalitesini kullanarak ağın öğrenme yeteneğini sürekli olarak güçlendirir ve orijinal gradyan yolunu korur.
Ayrıca, E-ELAN mimarisini ELAN ile karşılaştırdığımızda, tek fark, hesaplamalı bloktadır, geçiş katmanının mimarisi değişmez.
E-ELAN, hesaplamalı blokların kardinalitesini genişletmeyi ve grup konvolüsyon kullanarak kanalı genişletmeyi önerir. Özellik haritası hesaplanır ve grup parametrelerine göre gruplara ayrılır ve daha sonra birleştirilir. Her grubun kanal sayısı, orijinal mimaride aynı kalır. Son olarak, özellik haritalarının grupları, kardinaliteyi gerçekleştirmek için eklenir.
Modül Tabanlı Model Ölçeklendirme
Model ölçeklendirme, modellerin özelliklerini ayarlama yardımcı olur, bu da farklı hizmet gereksinimlerine göre modelleri oluşturur. YOLOv7 algoritması, farklı hizmet gereksinimlerine göre modelleri oluşturmak için temel bir model kullanır ve yığılmış ölçekleme, boyun ve genişlik için bileşik ölçekleme yöntemini kullanır.

Şekil, birleştirme tabanlı modeller için model ölçekleme hakkında bilgi verir. (a) ve (b) şekillerinde görüldüğü gibi, hesaplamalı bloğun çıkış genişliği, modelin derinlik ölçeklenmesi ile birlikte artar. Sonuç olarak, iletim katmanlarının girdi genişliği artar. Bu yöntemler birleştirme tabanlı mimariye uygulanırsa, ölçekleme işlemi derinlikte gerçekleştirilir ve (c) şeklinde gösterilir.
Bu nedenle, birleştirme tabanlı modeller için ölçeklendirme faktörlerinin bağımsız olarak analiz edilmesi mümkün değildir ve birlikte analiz edilmeleri gerekir. Bu nedenle, birleştirme tabanlı bir model için, bileşik model ölçekleme yönteminin kullanılması uygundur. Ayrıca, derinlik faktörünün ölçeklenmesi sırasında, bloğun çıkış kanalının da ölçeklenmesi gerekir.
Eğitim için Ücretsiz Torba
Eğitim için ücretsiz torba, geliştiricilerin eğitim stratejisi veya maliyetini değiştirmeye çalışırken kullandıkları bir dizi yöntem veya tekniği tanımlamak için kullandıkları bir terimdir. Peki, YOLOv7’de eğitim için ücretsiz torbalar nelerdir? Bir göz atalım.
Planlı Yeniden Parametreli Konvolüsyon
YOLOv7 algoritması, gradyan iletim yolunu kullanarak, bir ağ ile yeniden parametreli konvolüsyonun nasıl ideal bir şekilde birleştirileceğini belirlemeye çalışır. Bu yaklaşım, RepConv algoritması‘nin VGG modelinde güzel bir performans göstermesine rağmen, DenseNet ve ResNet modellerine doğrudan uygulanmasında zayıf performans göstermesi nedeniyle bir çabayı temsil eder.
RepConv algoritması, 3×3 konvolüsyon ve 1×1 konvolüsyonları birleştirir. Algoritmanın performansını ve mimarisini analiz ettiğimizde, RepConv’nin DenseNet’teki birleştirmeyi ve ResNet’teki artıkları bozduğunu gözlemleyebiliriz.

Yukarıdaki resim, planlı yeniden parametreli bir modeli gösterir. YOLOv7 algoritmasının, bir ağın bir katmanında kimlik bağlantısı olmadan RepConvN kullanmanın kabul edilebilir olduğunu bulduğu görülebilir. Sonuç olarak, RepConvN ile değiştirilebilir.
Kaba Yardımcı ve İnce Lider Kayıp
Derin Denetim, bilgisayar biliminde bir dal olarak, derin ağların eğitiminde sıkça kullanılır. Derin denetimin temel ilkesi, ek bir yardımcı kafa eklemektir, ağın orta katmanlarına, birlikte eğitim ağırlıkları ile birlikte yardımcı kayıp olarak rehberlik eder. YOLOv7 algoritması, nihai çıktıdan sorumlu olan kafa için lider kafa, ve eğitimde yardımcı olan kafa için yardımcı kafa kullanır.
Devam ederek, YOLOv7, etiket atama için farklı bir yöntem kullanır. Geleneksel olarak, etiket atama, doğrudan zemine göre gerçekleri referans alarak ve belirli bir kural setine göre etiketler oluşturmak için kullanılmıştır. Ancak son yıllarda, tahmini girişin dağılımı ve kalitesi, güvenilir bir etiket oluşturmak için önemli bir rol oynamaktadır. YOLOv7, sınırlayıcı kutu ve zemine göre gerçekleri kullanarak nesnenin bir yumuşak etiketini oluşturur.
Ayrıca, YOLOv7 algoritmasının yeni etiket atama yöntemi, lider kafanın tahminlerini, hem lider hem de yardımcı kafaları yönlendirmek için kullanır. Etiket atama yöntemi iki önerilen stratejiye sahiptir.
Lider Kafa Kılavuzlu Etiket Atayıcı
Strateji, lider kafanın tahmin sonuçlarına ve zemine göre gerçeklere dayanarak hesaplar ve daha sonra optimizasyon kullanarak yumuşak etiketler oluşturur. Bu yumuşak etiketler, lider ve yardımcı kafalar için eğitim modeli olarak kullanılır.
Strateji, lider kafanın daha büyük bir öğrenme yeteneğine sahip olmasından dolayı, lider kafanın ürettiği etiketlerin daha temsil edici ve kaynak ile hedef arasında daha ilgili olacağı varsayımı üzerine çalışır.
Kaba İnce Lider Kafa Kılavuzlu Etiket Atayıcı
Bu strateji de, lider kafanın tahmin sonuçlarına ve zemine göre gerçeklere dayanarak hesaplar ve daha sonra optimizasyon kullanarak yumuşak etiketler oluşturur. Ancak, bir fark vardır. Bu strateji, kaba seviye ve ince etiket olmak üzere iki set yumuşak etiket oluşturur.
Kaba etiket, pozitif örnek atama sürecinin kısıtlamalarını gevşeterek daha fazla ızgarayı pozitif hedefler olarak ele alır. Bu, yardımcı kafanın daha zayıf öğrenme gücünden dolayı bilgi kaybını önlemek için yapılır.

Yukarıdaki resim, YOLOv7 algoritmasında eğitim için ücretsiz torbanın kullanımını gösterir. Yardımcı kafa için kaba, lider kafa için ince olarak gösterilir. Bir modeli yardımcı kafa (b) ile normal model (a) karşılaştırdığımızda, (b) şemasının bir yardımcı kafası olduğunu, ancak (a) şemasında olmadığını görürüz.
(c) şekli, ortak bağımsız etiket atayıcıyı gösterirken, (d) ve (e) şekilleri sırasıyla YOLOv7 tarafından kullanılan Lider Kılavuzlu Atayıcı ve Kaba İnce Lider Kılavuzlu Atayıcıyı temsil eder.
Diğer Eğitim için Ücretsiz Torbalar
Yukarıda bahsedilenlerin yanı sıra, YOLOv7 algoritması, orijinal olarak önerilmeyen ancak kullanılan ek eğitim için ücretsiz torbalar içerir. Bunlar:
- Conv-Bn-Activation Teknolojisi için Batch Normalizasyon: Bu strateji, bir konvolüsyonel katmanı doğrudan bir batch normalizasyon katmanına bağlar.
- YOLOR’da İmplicit Bilgi: YOLOv7, bu stratejiyi konvolüsyonel özellik haritasıyla birleştirir.
- EMA Modeli: EMA modeli, YOLOv7’de nihai referans modeli olarak kullanılır, ancak ana kullanımı, ortalama öğretmen yönteminde kullanılır.
YOLOv7: Deneyimler
Deneysel Kurulum
YOLOv7 algoritması, nesne algılama modelini eğitmek ve doğrulamak için Microsoft COCO veri setini kullanır ve bu deneylerin tümü önceden eğitilmiş bir model kullanmaz. Geliştiriciler, 2017 eğitim veri setini eğitime ve 2017 doğrulama veri setini hiperparametreleri seçmek için kullandı. Son olarak, YOLOv7 nesne algılama sonuçlarının performansı, nesne algılama için devlet-sanat algoritmalarıyla karşılaştırıldı.
Geliştiriciler, kenar GPU (YOLOv7-tiny), normal GPU (YOLOv7) ve bulut GPU (YOLOv7-W6) için temel modeller tasarladı. Ayrıca, YOLOv7 algoritması, farklı hizmet gereksinimlerine göre model ölçekleme için temel bir model kullanır ve farklı modelleri alır. YOLOv7 algoritması için yığılmış ölçekleme, boyun ve genişlik için bileşik ölçekleme yöntemi kullanılır.
Referans Noktaları
YOLOv7 algoritması, önceki YOLO modellerini ve YOLOR nesne algılama algoritmasını referans noktaları olarak kullanır.

Yukarıdaki şekil, YOLOv7 modelinin referans noktasını diğer nesne algılama modelleriyle karşılaştırır ve sonuçlar oldukça açıktır. YOLOv4 algoritmasıyla karşılaştırıldığında, YOLOv7, %75 daha az parametre ve %15 daha az hesaplama kullanır ve %0.4 daha yüksek doğruluk sahiptir.
Devlet-Sanat Nesne Dedektörü Modelleriyle Karşılaştırma

Yukarıdaki şekil, YOLOv7’yi mobil ve genel GPU’lar için devlet-sanat nesne algılama modelleriyle karşılaştırır. YOLOv7 algoritmasının önerdiği yöntemin en iyi hız-doğruluk ticaretinin olduğunu gözlemleyebiliriz.
Yıkama Çalışması: Önerilen Bileşik Ölçeklendirme Yöntemi

Yukarıdaki şekil, modeli ölçeklendirme için farklı stratejilerin sonuçlarını karşılaştırır. YOLOv7 modelinin ölçeklendirme stratejisi, hesaplamalı bloğun derinliğini 1.5 katına ve genişliğini 1.25 katına ölçeklendirir.
Derinliği ölçekleyen ancak genişliği ölçeklemeyen bir modelle karşılaştırıldığında, YOLOv7 modeli, daha az parametre ve hesaplamayla %0.5 daha iyi performans gösterir. Öte yandan, sadece genişliği ölçekleyen modellerle karşılaştırıldığında, YOLOv7’nin doğruluğu %0.2 artırılır, ancak parametrelerin 2.9 katına ve hesaplamaların 1.2 katına ihtiyacı vardır.
Önerilen Planlı Yeniden Parametreli Model
Önerilen yeniden parametreli modelinin genelliğini doğrulamak için, YOLOv7 algoritması, bu modeli artıklara dayalı ve birleştirme tabanlı modellerde doğrulamak için kullanır. Doğrulama için, YOLOv7 algoritması, birleştirme tabanlı model için 3-yığılmış ELAN ve artıklara dayalı model için CSPDarknet kullanır.
Birleştirme tabanlı model için, algoritma, 3-yığılmış ELAN’daki 3×3 konvolüsyonel katmanları RepConv ile değiştirir. Aşağıdaki şekil, Planlı RepConv ve 3-yığılmış ELAN’ın ayrıntılı yapılandırmasını gösterir.

Ayrıca, artıklara dayalı model ile ilgili olarak, YOLOv7 algoritması, orijinal dark bloğun 3×3 konvolüsyon bloğu içermemesi nedeniyle ters bir dark blok kullanır. Aşağıdaki şekil, ters CSPDarknet’in mimarisini gösterir, bu, 3×3 ve 1×1 konvolüsyonel katmanların konumlarını tersine çevirir.

Yardımcı Kayıp için Yardımcı Kafa
Yardımcı kaybın yardımcı kafa için, YOLOv7 modeli, bağımsız etiket atama ve lider kafanın etiket atama yöntemlerini karşılaştırır.

Yukarıdaki şekil, önerilen yardımcı kafa çalışmasının sonuçlarını içerir. Modelin genel performansının, yardımcı kaybın artmasıyla birlikte arttığı görülebilir. Ayrıca, YOLOv7 modelinin önerdiği lider kılavuzlu etiket atama, bağımsız lider atama stratejilerinden daha iyi performans gösterir.
YOLOv7 Sonuçları
Yukarıdaki deneylere dayanarak, YOLOv7’nin diğer nesne algılama algoritmalarıyla karşılaştırıldığında performansı aşağıdaki gibidir.

Yukarıdaki şekil, YOLOv7 modelini diğer nesne algılama algoritmalarıyla karşılaştırır ve YOLOv7’nin Ortalama Doğruluk (AP) / Batch İnterferans açısından diğer nesne algılama modellerini aştığını açıkça görebiliriz.
Ayrıca, aşağıdaki şekil, YOLOv7’nin diğer gerçek zamanlı nesne algılama algoritmalarıyla karşılaştırıldığında performansını gösterir. Yine, YOLOv7, genel performans, doğruluk ve verimlilik açısından diğer modelleri geçer.

Aşağıda, YOLOv7 sonuçlarından ve performansından bazı ek gözlemler bulunmaktadır.
- YOLOv7-Tiny, YOLO ailesinin en küçük modelidir ve 6 milyondan fazla parametreye sahiptir. YOLOv7-Tiny, %35.2’lik bir Ortalama Doğruluk değerine sahiptir ve benzer parametrelere sahip YOLOv4-Tiny modellerini geçer.
- YOLOv7 modeli, 37 milyondan fazla parametreye sahiptir ve daha yüksek parametreli modelleri, örneğin YOLOv4’ü geçer.
- YOLOv7 modeli, 5 ila 160 FPS aralığında en yüksek mAP ve FPS oranına sahiptir.
Sonuç
YOLO veya Sadece Bir Kez Bak, modern bilgisayar görme中的 devlet-sanat nesne algılama modelidir. YOLO algoritması, yüksek doğruluğu ve verimliliği ile bilinir ve bu nedenle gerçek zamanlı nesne algılama endüstrisinde geniş bir uygulama alanı bulmuştur. İlk YOLO algoritması 2016 yılında tanıtıldığından beri, deneyler, geliştiricilerin modeli sürekli olarak iyileştirmesine olanak tanıdı.
YOLOv7 modeli, YOLO ailesinin en son eklenmesidir ve şimdiye kadar ki en güçlü YOLO algoritmasıdır. Bu makalede, YOLOv7’nin temel kavramlarını ve YOLOv7’nin neden bu kadar verimli olduğunu açıklamaya çalıştık.












