Sztuczna inteligencja

YOLOv7: Najbardziej Zaawansowany Algorytm Wykrywania Obiektów?

mm

6 lipca 2022 roku zostanie zapamiętany jako kamień milowy w historii sztucznej inteligencji, ponieważ tego dnia wydano YOLOv7. Od momentu jego premiery YOLOv7 jest najgorętszym tematem w społeczności deweloperów wizji komputerowej, i to ze słusznych powodów. YOLOv7 jest już uważany za kamień milowy w branży wykrywania obiektów. 

Krótko po opublikowaniu artykułu o YOLOv7, okazało się, że jest to najszybszy i najdokładniejszy model wykrywania obiektów w czasie rzeczywistym. Ale jak YOLOv7 wyprzedza swoich poprzedników? Co sprawia, że YOLOv7 jest tak wydajny w wykonywaniu zadań związanych z wizją komputerową? 

W tym artykule spróbujemy przeanalizować model YOLOv7 i znaleźć odpowiedź na pytanie, dlaczego YOLOv7 staje się standardem branżowym? Ale zanim będziemy mogli odpowiedzieć na to pytanie, musimy przyjrzeć się krótkiej historii wykrywania obiektów. 

Co to jest wykrywanie obiektów?

Wykrywanie obiektów jest gałęzią wizji komputerowej, która identyfikuje i lokalizuje obiekty w obrazie lub pliku wideo. Wykrywanie obiektów jest podstawą wielu aplikacji, w tym samochodów autonomicznych, monitorowanych systemów nadzoru i nawet robotyki. 

Model wykrywania obiektów można sklasyfikować na dwa różne typy, wykrywacze jednego strzału, i wykrywacze wielu strzałów. 

Wykrywanie obiektów w czasie rzeczywistym

Aby naprawdę zrozumieć, jak działa YOLOv7, konieczne jest zrozumienie głównego celu YOLOv7, „Wykrywanie obiektów w czasie rzeczywistym”. Wykrywanie obiektów w czasie rzeczywistym jest kluczowym składnikiem nowoczesnej wizji komputerowej. Modele wykrywania obiektów w czasie rzeczywistym próbują identyfikować i lokalizować obiekty zainteresowania w czasie rzeczywistym. Modele wykrywania obiektów w czasie rzeczywistym sprawiły, że dla deweloperów było naprawdę wydajne śledzenie obiektów zainteresowania w filmie lub na żywo. 

Modele wykrywania obiektów w czasie rzeczywistym są zasadniczo o krok do przodu w porównaniu z konwencjonalnymi modelami wykrywania obrazów. Podczas gdy pierwsze są używane do śledzenia obiektów w plikach wideo, drugie lokalizuje i identyfikuje obiekty w stacjonarnym kadrze, takim jak obraz. 

W rezultacie modele wykrywania obiektów w czasie rzeczywistym są naprawdę wydajne dla analizy wideo, pojazdów autonomicznych, liczenia obiektów, śledzenia wielu obiektów i wielu innych. 

Co to jest YOLO?

YOLO lub „Patrzysz tylko raz” to rodzina modeli wykrywania obiektów w czasie rzeczywistym. Koncept YOLO został po raz pierwszy wprowadzony w 2016 roku przez Josepha Redmona, i stał się natychmiast gorącym tematem, ponieważ był znacznie szybszy i dokładniejszy niż istniejące algorytmy wykrywania obiektów. Nie minęło dużo czasu, zanim algorytm YOLO stał się standardem w branży wizji komputerowej. 

Podstawowa koncepcja, którą proponuje algorytm YOLO, polega na użyciu sieci neuronowej końca do końca z prostokątnymi ramkami i prawdopodobieństwami klasy do dokonywania prognoz w czasie rzeczywistym. YOLO różnił się od poprzednich modeli wykrywania obiektów, ponieważ proponował inny sposób wykrywania obiektów, zmieniając klasyfikatory. 

Zmiana podejścia sprawiła, że YOLO szybko stał się standardem branżowym, ponieważ różnica w wydajności między nim a innymi modelami wykrywania obiektów w czasie rzeczywistym była znacząca. Ale co sprawiło, że YOLO był tak wydajny? 

Porównując YOLO z algorytmami wykrywania obiektów z tamtego czasu, można zauważyć, że te modele często wykonywały wiele iteracji na tym samym obrazie, co skutkowało brakiem dokładności i wyższym czasem wykonania. Z drugiej strony, algorytm YOLO używa jednej warstwy w pełni połączonej do dokonywania prognoz na raz. 

Jak działa YOLO?

Istnieją trzy kroki, które wyjaśniają, jak działa algorytm YOLO. 

Przeformułowanie wykrywania obiektów jako pojedynczy problem regresji

Algorytm YOLO próbuje przeformułować wykrywanie obiektów jako pojedynczy problem regresji, w tym piksele obrazu, prawdopodobieństwa klasy i współrzędne prostokątnej ramki. Dlatego algorytm musi spojrzeć na obraz tylko raz, aby przewidzieć i zlokalizować cele w obrazie. 

Uzasadnienie obrazu globalnie

Ponadto, kiedy algorytm YOLO dokonuje prognoz, uzasadnia obraz globalnie. Różni się to od podejścia opartego na regionie i technice przesuwania, ponieważ algorytm YOLO widzi cały obraz podczas treningu i testowania na zbiorze danych i jest w stanie zakodować informacje kontekstowe o klasach i ich pojawieniu się. 

Przed YOLO, Fast R-CNN był jednym z najpopularniejszych algorytmów wykrywania obiektów, który nie mógł zobaczyć szerszego kontekstu w obrazie, ponieważ mylił tło w obrazie z obiektem. Porównując algorytm YOLO z algorytmem Fast R-CNN, YOLO jest o 50% bardziej dokładny, jeśli chodzi o błędy tła. 

Uogólnienie reprezentacji obiektów

Wreszcie, algorytm YOLO również dąży do uogólnienia reprezentacji obiektów w obrazie. W rezultacie, kiedy algorytm YOLO został uruchomiony na zbiorze danych z naturalnymi obrazami i przetestowany na wynikach, YOLO przewyższył istniejące modele R-CNN o dużą przewagę. To dlatego, że YOLO jest bardzo ogólny, szansa na to, że zawiedzie przy wdrożeniu na nieoczekiwanych danych wejściowych lub nowych domenach, była niewielka. 

YOLOv7: Co nowego?

Teraz, gdy mamy podstawowe zrozumienie tego, czym są modele wykrywania obiektów w czasie rzeczywistym, i czym jest algorytm YOLO, czas omówić algorytm YOLOv7. 

Optymalizacja procesu treningu

Algorytm YOLOv7 nie tylko próbuje zoptymalizować architekturę modelu, ale również dąży do zoptymalizowania procesu treningu. Dąży do użycia modułów optymalizacji i metod, aby poprawić dokładność wykrywania obiektów, wzmocnić koszt treningu, przy jednoczesnym utrzymaniu kosztu interferencji. Te moduły optymalizacji można nazwać workiem darmowych rzeczy

Przewodnictwo gruboziarniste do drobnoziarnistego

Algorytm YOLOv7 planuje użyć nowego przewodnictwa gruboziarnistego do drobnoziarnistego zamiast konwencjonalnego dynamicznego przypisania etykiet. Jest to dlatego, że z dynamicznym przypisaniem etykiet, trening modelu z wieloma warstwami wyjściowymi powoduje pewne problemy, najczęstszym z nich jest to, jak przypisać dynamiczne cele dla różnych gałęzi i ich wyjść. 

Przypisanie parametrów modelu

Przypisanie parametrów modelu jest ważną koncepcją w wykrywaniu obiektów, a jego użycie jest zwykle poprzedzone pewnymi problemami podczas treningu. Algorytm YOLOv7 planuje użyć koncepcji ścieżki propagacji gradientu, aby przeanalizować polityki przypisania parametrów modelu stosowane do różnych warstw w sieci. 

Rozszerzone i złożone skalowanie

Algorytm YOLOv7 wprowadza również metody rozszerzonego i złożonego skalowania, aby wykorzystać i efektywnie użyć parametrów i obliczeń do wykrywania obiektów w czasie rzeczywistym. 

YOLOv7: Powiązane prace

Wykrywanie obiektów w czasie rzeczywistym

YOLO jest obecnie standardem branżowym, a większość modeli wykrywania obiektów w czasie rzeczywistym wdrożonych w YOLO i FCOS (Fully Convolutional One-Stage Object-Detection). Model wykrywania obiektów w czasie rzeczywistym na poziomie stanu sztuki zwykle ma następujące cechy

  • Silniejsza i szybsza architektura sieci. 
  • Skuteczna metoda integracji cech. 
  • Dokładna metoda wykrywania obiektów. 
  • Wydajna funkcja straty. 
  • Skuteczna metoda przypisania etykiet. 
  • Wydajna metoda treningu. 

Algorytm YOLOv7 nie używa samouczącego się uczenia i destylacji, które często wymagają dużych ilości danych. Zamiast tego algorytm YOLOv7 używa metody worka darmowych rzeczy. 

Przypisanie parametrów modelu

Techniki przypisania parametrów modelu są uważane za technikę ensemble, która łączy wiele modułów obliczeniowych w fazie interferencji. Technika ta można podzielić na dwie kategorie, ensemble na poziomie modelu, i ensemble na poziomie modułu. 

Teraz, aby uzyskać ostateczny model interferencji, technika ensemble na poziomie modelu używa dwóch praktyk. Pierwsza praktyka używa różnych danych treningowych do treningu wielu identycznych modeli, a następnie średniej ważonych modeli treningowych. Zamiast tego, inna praktyka średniej ważonych modeli w różnych iteracjach. 

Przypisanie parametrów modelu na poziomie modułu zyskuje coraz większą popularność, ponieważ dzieli moduł na różne gałęzie modułu lub różne identyczne gałęzie podczas fazy treningu, a następnie łączy te różne gałęzie w jeden moduł podczas interferencji. 

Jednak techniki przypisania parametrów modelu nie mogą być stosowane do wszystkich typów architektur. Jest to powodem, dla którego algorytm YOLOv7 używa nowych technik przypisania parametrów modelu, aby zaprojektować powiązane strategie dostosowane do różnych architektur. 

Skalowanie modelu

Skalowanie modelu jest procesem skalowania istniejącego modelu, aby pasował do różnych urządzeń obliczeniowych. Skalowanie modelu zwykle używa różnych czynników, takich jak liczba warstw (głębokość), rozmiar wejściowych obrazów (rozdzielczość), liczba piramid cech (etap), i liczba kanałów (szerokość). Te czynniki odgrywają kluczową rolę w zapewnieniu wyważonego kompromisu między parametrami sieci, prędkością interferencji, obliczeniami i dokładnością modelu. 

Jedną z najczęściej używanych metod skalowania jest wyszukiwanie architektury sieci (NAS), które automatycznie wyszukuje odpowiednie czynniki skalowania z silników wyszukiwania bez skomplikowanych reguł. Główną wadą używania NAS jest to, że jest to kosztowne podejście do wyszukiwania odpowiednich czynników skalowania. 

Prawie każdy model przypisania parametrów analizuje indywidualne i unikalne czynniki skalowania niezależnie, a dodatkowo optymalizuje te czynniki niezależnie. Jest to dlatego, że architektura NAS działa z niezależnymi czynnikami skalowania. 

Warto zauważyć, że modele oparte na łączeniu, takie jak VoVNet lub DenseNet, zmieniają szerokość wejściową kilku warstw, gdy głębokość modelu jest skalowana. YOLOv7 opiera się na proponowanej architekturze łączenia, a zatem używa metody skalowania złożonego. 

Powyższy rysunek porównuje rozszerzone efektywne agregacje warstw (E-ELAN) różnych modeli. Metoda E-ELAN proponowana przez E-ELAN utrzymuje ścieżkę transmisji gradientu oryginalnej architektury, ale dąży do zwiększenia liczby cech dodanych za pomocą konwolucji grupowej. Proces ten może poprawić cechy nauczone przez różne mapy i może dodatkowo wykorzystać obliczenia i parametry w sposób bardziej efektywny. 

Architektura YOLOv7

Model YOLOv7 używa modeli YOLOv4, YOLO-R i YOLOv4-Scaled jako podstawy. YOLOv7 jest wynikiem eksperymentów przeprowadzonych na tych modelach w celu poprawy wyników i uczynienia modelu bardziej dokładnym. 

Rozszerzona efektywna agregacja warstw (E-ELAN)

E-ELAN jest podstawowym budulcem modelu YOLOv7 i jest pochodną istniejących modeli efektywności sieci, głównie ELAN. 

Główne rozważania przy projektowaniu efektywnej architektury są liczbą parametrów, gęstością obliczeniową i ilością obliczeń. Inne modele również biorą pod uwagę czynniki takie jak wpływ stosunku kanałów wejściowych i wyjściowych, gałęzi w sieci, prędkości interferencji, liczby elementów w tensorach sieci konwolucyjnej i więcej. 

Model CSPVoNet nie tylko bierze pod uwagę powyższe parametry, ale również analizuje ścieżkę gradientu, aby nauczyć się bardziej różnorodnych cech, umożliwiając wagom różnych warstw. Podejście pozwala na interferencję, która jest znacznie szybsza i dokładniejsza. Architektura ELAN dąży do zaprojektowania efektywnej sieci w celu kontrolowania najkrótszej najdłuższej ścieżki gradientu, aby sieć mogła być bardziej skuteczna w nauce i zbieżności. 

ELAN osiągnął już stabilny stan, niezależnie od liczby bloków obliczeniowych i długości ścieżki gradientu. Stan stabilny może zostać zniszczony, jeśli bloki obliczeniowe są stosowane nieograniczenie, a wskaźnik wykorzystania parametrów zmniejszy się. Proponowana architektura E-ELAN może rozwiązać ten problem, używając rozszerzenia, przestawiania i łączenia kardynalności, aby ciągle poprawiać zdolność uczenia się sieci, przy zachowaniu oryginalnej ścieżki gradientu. 

Ponadto, porównując architekturę E-ELAN z ELAN, jedyna różnica jest w bloku obliczeniowym, podczas gdy architektura warstwy przejściowej pozostaje niezmieniona. 

E-ELAN proponuje rozszerzenie kardynalności bloków obliczeniowych i rozszerzenie kanału za pomocą konwolucji grupowej. Mapa cech jest następnie obliczana i przestawiana w grupy zgodnie z parametrem grupy, a następnie łączona. Liczba kanałów w każdej grupie pozostaje taka sama jak w oryginalnej architekturze. Na koniec grupy map cech są dodawane w celu wykonania kardynalności. 

Skalowanie modelu dla modeli opartych na łączeniu

Skalowanie modelu pomaga w dostosowaniu atrybutów modelu, co pomaga w generowaniu modeli zgodnie z wymaganiami i w różnych skalach, aby spełnić różne prędkości interferencji. 

Powyższy rysunek dotyczy skalowania modelu dla różnych modeli opartych na łączeniu. Jak widać na rysunku (a) i (b), szerokość wyjściowa bloku obliczeniowego zwiększa się wraz ze zwiększeniem głębokości modelu. W rezultacie szerokość wejściowa warstw transmisyjnych jest zwiększona. Jeśli te metody są stosowane w architekturze opartej na łączeniu, proces skalowania jest wykonywany w głębokości, a jest to przedstawione na rysunku (c). 

Można zatem stwierdzić, że nie jest możliwe analizowanie czynników skalowania niezależnie dla modeli opartych na łączeniu, a raczej muszą być one rozważane razem. Dlatego dla modelu opartego na łączeniu należy użyć odpowiedniej metody skalowania złożonego. Dodatkowo, gdy czynnik głębokości jest skalowany, kanał wyjściowy bloku musi być również skalowany. 

Worki darmowych rzeczy

Worki darmowych rzeczy to termin, który deweloperzy używają do opisania zbioru metod lub technik, które mogą zmienić strategię treningu lub koszt, aby poprawić dokładność modelu. Co to są worki darmowych rzeczy w YOLOv7? Zobaczmy. 

Planiowane przypisanie parametrów konwolucji

Algorytm YOLOv7 używa ścieżek propagacji gradientu, aby określić, jak idealnie połączyć sieć z przypisanymi parametrów konwolucji. Podejście YOLOv7 jest próbą przeciwdziałania algorytmowi RepConv, który chociaż działał dobrze na modelu VGG, działał słabo, gdy zastosowano go bezpośrednio do modeli DenseNet i ResNet. 

Aby zidentyfikować połączenia w warstwie konwolucyjnej, algorytm RepConv łączy konwolucję 3×3 i konwolucję 1×1. Jeśli przeanalizujemy algorytm, jego wydajność i architekturę, zobaczymy, że RepConv niszczy połączenie w DenseNet i resztę w ResNet

Powyższy obraz przedstawia zaplanowany model z przypisanymi parametrów. Można zobaczyć, że algorytm YOLOv7 stwierdził, że warstwa w sieci z połączeniami lub resztą nie powinna mieć połączenia tożsamościowego w algorytmie RepConv. W związku z tym jest dopuszczalne, aby zamienić go na RepConvN bez połączeń tożsamościowych. 

Gruboziarniste dla pomocniczego i drobnoziarniste dla wiodącego straty

Głębokie nadzorowanie to gałąź informatyki, która często znajduje zastosowanie w procesie treningu głębokich sieci. Podstawowa zasada głębokiego nadzorowania polega na tym, że dodaje dodatkową głowę pomocniczą w środkowych warstwach sieci wraz z płytkimi wagami sieci z pomocniczą stratą jako przewodnikiem. Algorytm YOLOv7 odnosi się do głowy odpowiedzialnej za ostateczne wyjście jako głowa wiodąca, a głowa pomocnicza jest głową, która pomaga w treningu. 

Przechodząc dalej, YOLOv7 używa innej metody przypisania etykiet. Konwencjonalnie, przypisanie etykiet było używane do generowania etykiet, odwołując się bezpośrednio do danych rzeczywistych i na podstawie danego zestawu reguł. Jednak w ostatnich latach, dystrybucja i jakość danych wejściowych odgrywają ważną rolę w generowaniu niezawodnej etykiety. YOLOv7 generuje miękką etykietę obiektu, używając prognoz pudełka i danych rzeczywistych. 

Ponadto, nowa metoda przypisania etykiet YOLOv7 używa prognoz głowy wiodącej, aby kierować zarówno głową wiodącą, jak i pomocniczą. Metoda przypisania etykiet ma dwie proponowane strategie. 

Przewodnik głowy wiodącej

Strategia wykonuje obliczenia na podstawie wyników prognoz głowy wiodącej i danych rzeczywistych, a następnie używa optymalizacji, aby wygenerować miękkie etykiety. Te miękkie etykiety są następnie używane jako model treningowy zarówno dla głowy wiodącej, jak i pomocniczej. 

Strategia opiera się na założeniu, że ponieważ głowa wiodąca ma większą zdolność uczenia się, etykiety, które generuje, powinny być bardziej reprezentatywne i skorelowane między źródłem a celem. 

Gruboziarniste do drobnoziarnistego przewodnik głowy wiodącej

Ta strategia również wykonuje obliczenia na podstawie wyników prognoz głowy wiodącej i danych rzeczywistych, a następnie używa optymalizacji, aby wygenerować miękkie etykiety. Istnieje jednak kluczowa różnica. W tej strategii istnieją dwa zestawy miękkich etykiet, poziom gruboziarnisty, i etykieta drobnoziarnista. 

Etykieta gruboziarnista jest generowana przez relaksację ograniczeń procesu przypisania próbek pozytywnych, co traktuje więcej siatek jako cele pozytywne. Robi się to, aby uniknąć ryzyka utraty informacji z powodu słabszej siły uczenia się głowy pomocniczej. 

Powyższy rysunek wyjaśnia użycie worka darmowych rzeczy w algorytmie YOLOv7. Przedstawia gruboziarniste dla głowy pomocniczej i drobnoziarniste dla głowy wiodącej. Porównując model z głową pomocniczą (b) z modelem normalnym (a), zobaczymy, że schemat w (b) ma głowę pomocniczą, podczas gdy w (a) jej nie ma. 

Rysunek (c) przedstawia wspólny niezależny przypisujący etykiety, podczas gdy rysunek (d) i (e) odpowiednio reprezentują przewodnik głowy wiodącej i gruboziarnisty do drobnoziarnistego przewodnika używanego przez YOLOv7.  

Inne worki darmowych rzeczy

Ponadto, algorytm YOLOv7 używa dodatkowych worków darmowych rzeczy, chociaż nie zostały one pierwotnie zaproponowane przez nich. Są to

  • Normalizacja batch w technologii Conv-Bn-Aktivacja: Ta strategia jest używana do połączenia warstwy konwolucyjnej bezpośrednio z warstwą normalizacji batch. 
  • Wiedza niejawna w YOLOR: Algorytm YOLOv7 łączy tę strategię z mapą cech konwolucyjnej. 
  • Model EMA: Model EMA jest używany jako ostateczny model referencyjny w YOLOv7, chociaż jego podstawowe zastosowanie jest w metodzie nauczyciela średniego. 

YOLOv7: Eksperymenty

Ustawienia eksperymentalne

Algorytm YOLOv7 używa zbioru danych Microsoft COCO do treningu i walidacji modelu wykrywania obiektów, a nie wszystkie z tych eksperymentów używają wstępnie wytrenowanego modelu. Deweloperzy użyli zbioru danych treningowych z 2017 roku do treningu, a następnie użyli zbioru danych walidacyjnych z 2017 roku do wyboru hiperparametrów. Na koniec wyniki wykrywania obiektów YOLOv7 są porównywane z algorytmami stanu sztuki dla wykrywania obiektów. 

Deweloperzy zaprojektowali podstawowy model dla brzegowego GPU (YOLOv7-tiny), zwykłego GPU (YOLOv7) i chmury GPU (YOLOv7-W6). Ponadto, algorytm YOLOv7 używa również podstawowego modelu do skalowania modelu zgodnie z różnymi wymaganiami usługowymi i uzyskuje różne modele. Dla algorytmu YOLOv7 skalowanie stosu jest wykonywane na szyi, a proponowane związki są używane do skalowania głębokości i szerokości modelu. 

Punkty odniesienia

Algorytm YOLOv7 używa poprzednich modeli YOLO i algorytmu wykrywania obiektów YOLOR jako punktów odniesienia.

Powyższy rysunek porównuje punkt odniesienia modelu YOLOv7 z innymi modelami wykrywania obiektów, a wyniki są dość oczywiste. Porównując go z algorytmem YOLOv4, YOLOv7 używa 75% mniej parametrów, używa 15% mniej obliczeń i ma o 0,4% wyższą dokładność

Porównanie z modelem wykrywania obiektów stanu sztuki

Powyższy rysunek pokazuje wyniki, gdy YOLOv7 jest porównywany z modelem wykrywania obiektów stanu sztuki dla mobilnych i ogólnych GPU. Można zobaczyć, że metoda zaproponowana przez algorytm YOLOv7 ma najlepszy wynik handlu między szybkością a dokładnością. 

Studium ablacjne: Proponowana metoda skalowania złożonego

Powyższy rysunek porównuje wyniki używania różnych strategii do skalowania modelu. Strategia skalowania w modelu YOLOv7 skaluje głębokość bloku obliczeniowego o 1,5 razy, a skaluje szerokość o 1,25 razy. 

Porównując go z modelem, który skaluje tylko głębokość, model YOLOv7 działa lepiej o 0,5%, przy użyciu mniej parametrów i mocy obliczeniowej. Z drugiej strony, porównując go z modelem, który skaluje tylko głębokość, dokładność YOLOv7 jest poprawiona o 0,2%, ale liczba parametrów musi być skalowana o 2,9%, a obliczenia o 1,2%. 

Proponowany planowany model z przypisanymi parametrów

Aby zweryfikować powszechność swojego proponowanego modelu z przypisanymi parametrów, algorytm YOLOv7 używa go na modelach opartych na resztach i modelach opartych na łączeniu do weryfikacji. Do weryfikacji algorytm YOLOv7 używa 3-stacked ELAN dla modelu opartego na łączeniu, a CSPDarknet dla modelu opartego na resztach. 

Dla modelu opartego na łączeniu algorytm YOLOv7 zastępuje warstwy konwolucyjne 3×3 w 3-stacked ELAN z RepConv. Poniższy rysunek pokazuje szczegółową konfigurację planowanego RepConv i 3-stacked ELAN. 

Ponadto, przy pracy z modelem opartym na resztach, algorytm YOLOv7 używa odwróconego bloku ciemnego, ponieważ oryginalny blok ciemny nie ma warstwy konwolucyjnej 3×3. Poniższy rysunek pokazuje architekturę odwróconego CSPDarknet, który odwraca położenie warstw konwolucyjnych 3×3 i 1×1. 

Proponowany asystent straty dla głowy pomocniczej

Dla asystenta straty dla głowy pomocniczej model YOLOv7 porównuje niezależne przypisanie etykiet dla głowy pomocniczej i głowy wiodącej. 

Powyższy rysunek zawiera wyniki studium proponowanego asystenta głowy pomocniczej. Można zobaczyć, że ogólna wydajność modelu wzrasta wraz ze wzrostem asystenta straty. Ponadto, przypisanie etykiet przewodzone przez głowę wiodącą zaproponowane przez algorytm YOLOv7 działa lepiej niż niezależne strategie przypisania etykiet. 

Wyniki YOLOv7

Na podstawie powyższych eksperymentów, poniżej przedstawiono wyniki wydajności YOLOv7 w porównaniu z innymi algorytmami wykrywania obiektów. 

Powyższy rysunek porównuje model YOLOv7 z innymi algorytmami wykrywania obiektów, a można wyraźnie zobaczyć, że model YOLOv7 przewyższa inne modele wykrywania obiektów pod względem średniej precyzji (AP) w stosunku do interferencji wsadowej

Ponadto, poniższy rysunek porównuje wyniki YOLOv7 z innymi algorytmami wykrywania obiektów w czasie rzeczywistym. Ponownie, YOLOv7 przewyższa inne modele pod względem ogólnej wydajności, dokładności i wydajności. 

Poniżej przedstawiono dodatkowe obserwacje z wyników YOLOv7 i wyników. 

  1. YOLOv7-Tiny jest najmniejszym modelem w rodzinie YOLO, z ponad 6 milionami parametrów. YOLOv7-Tiny ma średnią precyzję 35,2%, i przewyższa model YOLOv4-Tiny o porównywalnych parametrach. 
  2. Model YOLOv7 ma ponad 37 milionów parametrów i przewyższa modele o wyższych parametrach, takie jak YOLov4. 
  3. Model YOLOv7 ma najwyższy wskaźnik mAP i FPS w zakresie od 5 do 160 FPS. 

Podsumowanie

YOLO lub „Patrzysz tylko raz” to stan sztuki modelu wykrywania obiektów w nowoczesnej wizji komputerowej. Algorytm YOLO jest znany ze swojej wysokiej dokładności i wydajności, i w związku z tym znajduje szerokie zastosowanie w branży wykrywania obiektów w czasie rzeczywistym. Od momentu wprowadzenia pierwszego algorytmu YOLO w 2016 roku, eksperymenty pozwoliły deweloperom na ciągłe ulepszanie modelu. 

Model YOLOv7 jest najnowszym dodatkiem do rodziny YOLO, i jest najpotężniejszym algorytmem YOLO do tej pory. W tym artykule omówiliśmy podstawy YOLOv7 i próbowaliśmy wyjaśnić, co sprawia, że YOLOv7 jest tak wydajny. 

"Inżynier z zawodu, pisarz z serca". Kunal jest technicznym pisarzem z głęboką miłością i zrozumieniem AI i ML, poświęconym uproszczeniu złożonych pojęć w tych dziedzinach poprzez swoje angażujące i informacyjne dokumentacje.