potongan YOLOv7: Algoritma Deteksi Objek Tercanggih? - Bersatu.AI
Terhubung dengan kami

Kecerdasan Buatan

YOLOv7: Algoritma Deteksi Objek Tercanggih?

mm

Diterbitkan

 on

Tanggal 6 Juli 2022 akan ditandai sebagai tonggak sejarah AI karena pada hari inilah YOLOv7 dirilis. Sejak diluncurkan, YOLOv7 telah menjadi topik terhangat di komunitas pengembang Computer Vision, dan untuk alasan yang tepat. YOLOv7 sudah dianggap sebagai tonggak sejarah dalam industri pendeteksian objek. 

Tak lama setelah Makalah YOLOv7 diterbitkan, itu muncul sebagai model deteksi keberatan real-time tercepat dan paling akurat. Tapi bagaimana YOLOv7 mengungguli pendahulunya? Apa yang membuat YOLOv7 sangat efisien dalam menjalankan tugas visi komputer? 

Pada artikel ini kami akan mencoba menganalisis model YOLOv7, dan mencoba menemukan jawaban mengapa YOLOv7 sekarang menjadi standar industri? Tapi sebelum kita bisa menjawabnya, kita harus melihat sejarah singkat deteksi objek. 

Apa itu Deteksi Objek?

Deteksi objek merupakan salah satu cabang dari computer vision yang mengidentifikasi dan menempatkan objek dalam gambar, atau file video. Deteksi objek adalah blok bangunan dari banyak aplikasi termasuk mobil self-driving, pengawasan terpantau, dan bahkan robotika. 

Model deteksi objek dapat diklasifikasikan ke dalam dua kategori berbeda, detektor tembakan tunggal, dan detektor multi-tembakan. 

Deteksi Objek Waktu Nyata

Untuk benar-benar memahami cara kerja YOLOv7, penting bagi kami untuk memahami tujuan utama YOLOv7, “Deteksi Objek Waktu Nyata”. Deteksi Objek Waktu Nyata adalah komponen kunci dari visi komputer modern. Model Deteksi Objek Waktu Nyata mencoba mengidentifikasi & menemukan objek yang menarik secara waktu nyata. Model Deteksi Objek Waktu Nyata membuatnya sangat efisien bagi pengembang untuk melacak objek yang menarik dalam bingkai bergerak seperti video, atau input pengawasan langsung. 

Model Deteksi Objek Waktu Nyata pada dasarnya selangkah lebih maju dari model deteksi gambar konvensional. Sementara yang pertama digunakan untuk melacak objek dalam file video, yang terakhir menempatkan & mengidentifikasi objek dalam bingkai stasioner seperti gambar. 

Hasilnya, model Deteksi Objek Waktu Nyata sangat efisien untuk analitik video, kendaraan otonom, penghitungan objek, pelacakan multi-objek, dan banyak lagi. 

Apa itu YOL?

YOLO atau “Anda Hanya Melihat Sekali” adalah keluarga model deteksi objek waktu nyata. Konsep YOLO pertama kali diperkenalkan pada tahun 2016 oleh Joseph Redmon, dan langsung menjadi pembicaraan di kota karena jauh lebih cepat, dan jauh lebih akurat daripada algoritma deteksi objek yang ada. Tidak lama kemudian algoritma YOLO menjadi standar dalam industri computer vision. 

Konsep dasar yang diusulkan oleh algoritme YOLO adalah menggunakan jaringan saraf end-to-end menggunakan kotak pembatas & probabilitas kelas untuk membuat prediksi secara real time. YOLO berbeda dari model pendeteksian objek sebelumnya dalam arti bahwa ia mengusulkan pendekatan yang berbeda untuk melakukan pendeteksian objek dengan mengklasifikasi ulang tujuan. 

Perubahan pendekatan berhasil karena YOLO segera menjadi standar industri karena kesenjangan kinerja antara dirinya sendiri, dan algoritme deteksi objek waktu nyata lainnya menjadi signifikan. Tapi apa alasan YOLO begitu efisien? 

Jika dibandingkan dengan YOLO, algoritme deteksi objek saat itu menggunakan Jaringan Proposal Wilayah untuk mendeteksi kemungkinan wilayah yang diminati. Proses pengenalan kemudian dilakukan pada masing-masing daerah secara terpisah. Akibatnya, model ini sering melakukan beberapa iterasi pada gambar yang sama, sehingga kurangnya akurasi, dan waktu eksekusi yang lebih tinggi. Di sisi lain, algoritma YOLO menggunakan satu lapisan yang terhubung sepenuhnya untuk melakukan prediksi sekaligus. 

Bagaimana Cara Kerja YOLO?

Ada tiga langkah yang menjelaskan cara kerja algoritma YOLO. 

Membingkai Ulang Deteksi Objek sebagai Masalah Regresi Tunggal

Grafik Algoritma YOLO mencoba membingkai ulang deteksi objek sebagai masalah regresi tunggal, termasuk piksel gambar, ke probabilitas kelas, dan koordinat kotak pembatas. Oleh karena itu, algoritme harus melihat gambar hanya sekali untuk memprediksi & menemukan objek target dalam gambar. 

Alasan Citra Secara Global

Selain itu, ketika algoritme YOLO membuat prediksi, itu memberi alasan pada gambar secara global. Ini berbeda dengan teknik geser berbasis proposal wilayah, karena algoritme YOLO melihat gambar lengkap selama pelatihan & pengujian pada kumpulan data, dan mampu menyandikan informasi kontekstual tentang kelas, dan tampilannya. 

Sebelum YOLO, Fast R-CNN adalah salah satu algoritme pendeteksian objek paling populer yang tidak dapat melihat konteks yang lebih besar pada gambar karena digunakan untuk salah mengira tambalan latar belakang pada gambar sebagai objek. Jika dibandingkan dengan algoritma Fast R-CNN, YOLO 50% lebih akurat ketika datang ke kesalahan latar belakang. 

Generalisasi Representasi Objek

Terakhir, algoritma YOLO juga bertujuan untuk menggeneralisasikan representasi objek dalam sebuah gambar. Akibatnya, ketika algoritme YOLO dijalankan pada kumpulan data dengan gambar alami, dan diuji hasilnya, YOLO mengungguli model R-CNN yang ada dengan selisih yang lebar. Itu karena YOLO sangat dapat digeneralisasikan, kemungkinan untuk mogok ketika diimplementasikan pada input yang tidak terduga atau domain baru sangat kecil. 

YOLOv7: Apa yang Baru?

Sekarang setelah kita memiliki pemahaman dasar tentang apa itu model deteksi objek waktu nyata, dan apa itu algoritme YOLO, saatnya membahas algoritme YOLOv7. 

Mengoptimalkan Proses Pelatihan

Algoritme YOLOv7 tidak hanya mencoba untuk mengoptimalkan arsitektur model, tetapi juga bertujuan untuk mengoptimalkan proses pelatihan. Ini bertujuan untuk menggunakan modul & metode pengoptimalan untuk meningkatkan akurasi deteksi objek, memperkuat biaya untuk pelatihan, sambil mempertahankan biaya interferensi. Modul optimasi ini dapat disebut sebagai a tas gratis yang bisa dilatih. 

Penetapan Label Terpandu Timbal Kasar hingga Halus

Algoritma YOLOv7 berencana untuk menggunakan Penetapan Label Terpandu Timbal Kasar ke Halus yang baru alih-alih konvensional Penetapan Label Dinamis. Itu karena dengan penetapan label dinamis, melatih model dengan beberapa lapisan keluaran menyebabkan beberapa masalah, yang paling umum adalah bagaimana menetapkan target dinamis untuk berbagai cabang dan keluarannya. 

Model Re-Parameterisasi

Parameterisasi ulang model adalah konsep penting dalam deteksi objek, dan penggunaannya umumnya diikuti dengan beberapa masalah selama pelatihan. Algoritma YOLOv7 berencana menggunakan konsep jalur propagasi gradien untuk menganalisis kebijakan parameterisasi ulang model berlaku untuk berbagai lapisan dalam jaringan. 

Extend dan Compound Scaling

Algoritma YOLOv7 juga memperkenalkan metode penskalaan diperpanjang dan gabungan untuk memanfaatkan dan secara efektif menggunakan parameter & perhitungan untuk deteksi objek waktu nyata. 

YOLOv7 : Pekerjaan Terkait

Deteksi Objek Waktu Nyata

YOLO saat ini menjadi standar industri, dan sebagian besar detektor objek waktu nyata menerapkan algoritme YOLO, dan FCOS (Deteksi Objek Satu Tahap Penuh Konvolusional). Detektor objek waktu nyata yang canggih biasanya memiliki karakteristik berikut

  • Arsitektur jaringan yang lebih kuat & lebih cepat. 
  • Metode integrasi fitur yang efektif. 
  • Metode deteksi objek yang akurat. 
  • Fungsi kerugian yang kuat. 
  • Metode penetapan label yang efisien. 
  • Metode pelatihan yang efisien. 

Algoritme YOLOv7 tidak menggunakan metode pembelajaran & distilasi mandiri yang seringkali membutuhkan data dalam jumlah besar. Sebaliknya, algoritme YOLOv7 menggunakan metode bag-of-freebies yang dapat dilatih. 

Model Re-Parameterisasi

Teknik parameterisasi ulang model dianggap sebagai teknik ansambel yang menggabungkan beberapa modul komputasi dalam tahap interferensi. Teknik ini dapat dibagi lagi menjadi dua kategori, ansambel tingkat model, dan ansambel tingkat modul. 

Sekarang, untuk mendapatkan model interferensi final, teknik reparameterisasi level model menggunakan dua praktik. Praktik pertama menggunakan data pelatihan yang berbeda untuk melatih banyak model identik, lalu menghitung rata-rata bobot model yang dilatih. Alternatifnya, praktik lain merata-ratakan bobot model selama iterasi yang berbeda. 

Parameterisasi ulang tingkat modul mendapatkan popularitas besar baru-baru ini karena membagi modul menjadi cabang modul yang berbeda, atau cabang identik yang berbeda selama fase pelatihan, dan kemudian melanjutkan untuk mengintegrasikan cabang yang berbeda ini ke dalam modul yang setara saat interferensi. 

Namun, teknik parameterisasi ulang tidak dapat diterapkan pada semua jenis arsitektur. Itu alasan mengapa Algoritma YOLOv7 menggunakan teknik parameterisasi ulang model baru untuk merancang strategi terkait cocok untuk arsitektur yang berbeda. 

Skala Model

Penskalaan model adalah proses menaikkan atau menurunkan model yang ada sehingga cocok dengan perangkat komputasi yang berbeda. Penskalaan model umumnya menggunakan berbagai faktor seperti jumlah lapisan (kedalaman), ukuran gambar input(resolusi), jumlah fitur piramida(tahap), dan jumlah saluran (lebar). Faktor-faktor ini memainkan peran penting dalam memastikan pertukaran yang seimbang untuk parameter jaringan, kecepatan interferensi, komputasi, dan akurasi model. 

Salah satu metode penskalaan yang paling umum digunakan adalah Pencarian NAS atau Arsitektur Jaringan yang secara otomatis mencari faktor penskalaan yang sesuai dari mesin pencari tanpa aturan yang rumit. Kelemahan utama menggunakan NAS adalah pendekatan yang mahal untuk mencari faktor penskalaan yang sesuai. 

Hampir setiap model parameterisasi ulang model menganalisis faktor penskalaan individu & unik secara mandiri, dan lebih jauh lagi, bahkan mengoptimalkan faktor-faktor ini secara mandiri. Itu karena arsitektur NAS bekerja dengan faktor penskalaan yang tidak berkorelasi. 

Perlu dicatat bahwa model berbasis rangkaian suka VoVNet or Jaringan Padat ubah lebar input beberapa lapisan saat kedalaman model diskalakan. YOLOv7 bekerja pada arsitektur berbasis gabungan yang diusulkan, dan karenanya menggunakan metode penskalaan majemuk.

Angka yang disebutkan di atas membandingkan memperluas jaringan agregasi lapisan yang efisien (E-ELAN) dengan model yang berbeda. Metode E-ELAN yang diusulkan mempertahankan jalur transmisi gradien dari arsitektur asli, tetapi bertujuan untuk meningkatkan kardinalitas fitur tambahan menggunakan konvolusi grup. Proses ini dapat meningkatkan fitur yang dipelajari oleh peta yang berbeda, dan selanjutnya dapat membuat penggunaan perhitungan & parameter menjadi lebih efisien. 

Arsitektur YOLOv7

Model YOLOv7 menggunakan model YOLOv4, YOLO-R, dan Scaled YOLOv4 sebagai dasarnya. YOLOv7 adalah hasil percobaan yang dilakukan pada model ini untuk meningkatkan hasil, dan membuat model lebih akurat. 

Extended Efficient Layer Aggregation Network atau E-ELAN

E-ELAN adalah blok bangunan mendasar dari model YOLOv7, dan berasal dari model efisiensi jaringan yang sudah ada, terutama ELAN. 

Pertimbangan utama saat merancang arsitektur yang efisien adalah jumlah parameter, kerapatan komputasi, dan jumlah komputasi. Model lain juga mempertimbangkan faktor-faktor seperti pengaruh rasio saluran input/output, cabang dalam jaringan arsitektur, kecepatan interferensi jaringan, jumlah elemen dalam tensor jaringan konvolusional, dan banyak lagi. 

Grafik CSPVoNet model tidak hanya mempertimbangkan parameter yang disebutkan di atas, tetapi juga menganalisis jalur gradien untuk mempelajari fitur yang lebih beragam dengan mengaktifkan bobot dari lapisan yang berbeda. Pendekatan ini memungkinkan interferensi menjadi lebih cepat, dan akurat. Itu ELAN arsitektur bertujuan merancang jaringan yang efisien untuk mengontrol jalur gradien terpanjang terpendek sehingga jaringan dapat lebih efektif dalam pembelajaran, dan konvergen. 

ELAN telah mencapai tahap stabil terlepas dari jumlah tumpukan blok komputasi, dan panjang jalur gradien. Kondisi stabil dapat dihancurkan jika blok komputasi ditumpuk tanpa batas, dan tingkat pemanfaatan parameter akan berkurang. Itu arsitektur E-ELAN yang diusulkan dapat memecahkan masalah karena menggunakan ekspansi, pengocokan, dan penggabungan kardinalitas untuk terus meningkatkan kemampuan pembelajaran jaringan sambil mempertahankan jalur gradien asli. 

Selanjutnya, ketika membandingkan arsitektur E-ELAN dengan ELAN, satu-satunya perbedaan adalah pada blok komputasi, sedangkan arsitektur lapisan transisi tidak berubah. 

E-ELAN mengusulkan untuk memperluas kardinalitas blok komputasi, dan memperluas saluran dengan menggunakan konvolusi kelompok. Peta fitur kemudian akan dihitung, dan dikocok ke dalam grup sesuai parameter grup, dan kemudian akan digabungkan menjadi satu. Jumlah saluran di setiap grup akan tetap sama dengan arsitektur aslinya. Terakhir, grup peta fitur akan ditambahkan untuk melakukan kardinalitas. 

Penskalaan Model untuk Model Berbasis Penggabungan

Penskalaan model membantu menyesuaikan atribut model yang membantu dalam menghasilkan model sesuai persyaratan, dan skala yang berbeda untuk memenuhi kecepatan interferensi yang berbeda. 

Angka tersebut berbicara tentang penskalaan model untuk berbagai model berbasis rangkaian. Seperti yang Anda dapat pada gambar (a) dan (b), lebar keluaran blok komputasi meningkat dengan peningkatan skala kedalaman model. Akibatnya, lebar masukan dari lapisan transmisi meningkat. Jika metode ini diimplementasikan pada arsitektur berbasis penggabungan, proses penskalaan dilakukan secara mendalam, dan digambarkan pada gambar (c). 

Dengan demikian dapat disimpulkan bahwa tidak mungkin untuk menganalisis faktor penskalaan secara independen untuk model berbasis rangkaian, dan lebih tepatnya mereka harus dipertimbangkan atau dianalisis bersama. Oleh karena itu, untuk model berbasis penggabungan, itu cocok untuk menggunakan metode penskalaan model senyawa yang sesuai. Selain itu, ketika faktor kedalaman diskalakan, saluran keluaran blok juga harus diskalakan. 

Tas Gratis yang Dapat Dilatih 

Sekantong gratis adalah istilah yang digunakan pengembang untuk mendeskripsikan seperangkat metode atau teknik yang dapat mengubah strategi atau biaya pelatihan dalam upaya untuk meningkatkan akurasi model. Jadi apa saja tas gratisan yang bisa dilatih di YOLOv7 ini? Mari kita lihat. 

Konvolusi Re-Parameterisasi yang Direncanakan

Algoritma YOLOv7 menggunakan jalur propagasi aliran gradien untuk menentukan bagaimana idealnya menggabungkan jaringan dengan konvolusi yang diparameter ulang. Pendekatan oleh YOLov7 ini merupakan upaya untuk melawan algoritma RepConv yang meskipun telah bekerja dengan baik pada model VGG, berkinerja buruk bila diterapkan langsung ke model DenseNet dan ResNet. 

Untuk mengidentifikasi koneksi dalam lapisan convolutional, the Algoritma RepConv menggabungkan konvolusi 3×3, dan konvolusi 1×1. Jika kami menganalisis algoritme, kinerjanya, dan arsitekturnya, kami akan mengamati bahwa RepConv menghancurkan rangkaian di DenseNet, dan sisa di ResNet

Gambar di atas menggambarkan model parameterisasi ulang yang direncanakan. Dapat dilihat bahwa algoritma YOLov7 menemukan bahwa lapisan dalam jaringan dengan koneksi gabungan atau residual seharusnya tidak memiliki koneksi identitas pada algoritma RepConv. Akibatnya, beralih dengan RepConvN dapat diterima tanpa koneksi identitas. 

Kasar untuk Pembantu dan Denda untuk Kehilangan Timbal

Pengawasan yang Mendalam adalah cabang ilmu komputer yang sering digunakan dalam proses pelatihan jaringan dalam. Prinsip dasar pengawasan mendalam adalah itu menambahkan kepala tambahan tambahan di lapisan tengah jaringan bersama dengan bobot jaringan dangkal dengan kehilangan asisten sebagai panduannya. Algoritme YOLOv7 mengacu pada kepala yang bertanggung jawab atas hasil akhir sebagai kepala utama, dan kepala tambahan adalah kepala yang membantu dalam pelatihan. 

Selanjutnya, YOLOv7 menggunakan metode berbeda untuk penetapan label. Secara konvensional, pemberian label telah digunakan untuk menghasilkan label dengan merujuk langsung ke kebenaran dasar, dan berdasarkan seperangkat aturan yang diberikan. Namun, dalam beberapa tahun terakhir, distribusi, dan kualitas input prediksi memainkan peran penting untuk menghasilkan label yang andal. YOLOv7 menghasilkan label lunak objek dengan menggunakan prediksi dari bounding box dan ground truth. 

Selain itu, metode penetapan label baru dari algoritme YOLOv7 menggunakan prediksi lead head untuk memandu lead & auxiliary head. Metode penetapan label memiliki dua strategi yang diusulkan. 

Pemberi Label Terpandu Kepala Utama

Strategi membuat kalkulasi berdasarkan hasil prediksi pemimpin utama, dan kebenaran dasar, lalu menggunakan pengoptimalan untuk menghasilkan label lunak. Label lembut ini kemudian digunakan sebagai model pelatihan untuk lead head, dan auxiliary head. 

Strategi tersebut bekerja berdasarkan asumsi bahwa karena kepala pimpinan memiliki kemampuan belajar yang lebih besar, label yang dihasilkannya harus lebih representatif, dan berkorelasi antara sumber & target. 

Pemberi Label Terpandu Kepala Timbal Kasar hingga Halus

Strategi ini juga membuat kalkulasi berdasarkan hasil prediksi lead head, dan ground truth, lalu menggunakan pengoptimalan untuk menghasilkan soft label. Namun, ada perbedaan utama. Dalam strategi ini, ada dua set soft label, tingkat kasar, dan label halus. 

Label kasar dihasilkan dengan melonggarkan batasan sampel positif

proses penugasan yang memperlakukan lebih banyak kisi sebagai target positif. Hal itu dilakukan untuk menghindari resiko kehilangan informasi karena kekuatan belajar kepala pembantu yang lemah. 

Gambar di atas menjelaskan penggunaan tas gratisan yang dapat dilatih dalam algoritme YOLOv7. Ini menggambarkan kasar untuk kepala tambahan, dan halus untuk kepala utama. Ketika kita membandingkan Model dengan Auxiliary Head(b) dengan Normal Model (a), kita akan melihat bahwa skema pada (b) memiliki auxiliary head, sedangkan pada (a) tidak. 

Gambar (c) menggambarkan pemberi label independen umum sementara gambar (d) & gambar (e) masing-masing mewakili Pemberi Tugas Terpandu Prospek, dan Pemberi Pemandu Prospek Kasar hingga Halus yang digunakan oleh YOLOv7.  

Tas Freebies Lainnya yang Dapat Dilatih

Selain yang disebutkan di atas, algoritme YOLOv7 menggunakan tas gratis tambahan, meskipun awalnya tidak diusulkan oleh mereka. Mereka

  • Normalisasi Batch dalam Teknologi Conv-Bn-Activation: Strategi ini digunakan untuk menghubungkan lapisan convolutional langsung ke lapisan normalisasi batch. 
  • Pengetahuan Implisit di YOLOR: YOLOv7 menggabungkan strategi dengan peta fitur Convolutional. 
  • Model EMA: Model EMA digunakan sebagai model referensi akhir di YOLOv7 meskipun penggunaan utamanya adalah untuk digunakan dalam metode mean teacher. 

YOLOv7 : Eksperimen

Pengaturan eksperimen

Algoritma YOLOv7 menggunakan Dataset Microsoft COCO untuk pelatihan dan validasi model deteksi objek mereka, dan tidak semua eksperimen ini menggunakan model terlatih. Pengembang menggunakan set data kereta 2017 untuk pelatihan, dan menggunakan set data validasi 2017 untuk memilih hyperparameter. Terakhir, kinerja hasil deteksi objek YOLOv7 dibandingkan dengan algoritme canggih untuk deteksi objek. 

Pengembang merancang model dasar untuk edge GPU (YOLOv7-tiny), GPU normal (YOLOv7), dan cloud GPU (YOLOv7-W6). Selain itu, algoritme YOLOv7 juga menggunakan model dasar untuk penskalaan model sesuai kebutuhan layanan yang berbeda, dan mendapatkan model yang berbeda. Untuk algoritme YOLOv7, penskalaan tumpukan dilakukan di bagian leher, dan senyawa yang diusulkan digunakan untuk meningkatkan kedalaman & lebar model. 

Dasar

Algoritme YOLOv7 menggunakan model YOLO sebelumnya, dan algoritma deteksi objek YOLOR sebagai dasarnya.

Gambar di atas membandingkan baseline model YOLOv7 dengan model deteksi objek lainnya, dan hasilnya cukup jelas. Jika dibandingkan dengan Algoritma YOLOv4, YOLOv7 tidak hanya menggunakan parameter 75% lebih sedikit, tetapi juga menggunakan komputasi 15% lebih sedikit, dan memiliki akurasi 0.4% lebih tinggi. 

Perbandingan dengan Model Detektor Objek Canggih

Gambar di atas menunjukkan hasil ketika YOLOv7 dibandingkan dengan model deteksi objek canggih untuk GPU seluler & umum. Dapat diamati bahwa metode yang diusulkan oleh algoritma YOLOv7 memiliki skor trade-off kecepatan-akurasi terbaik. 

Studi Ablasi : Usulan Metode Penskalaan Senyawa

Gambar yang ditunjukkan di atas membandingkan hasil penggunaan berbagai strategi untuk meningkatkan model. Strategi penskalaan dalam model YOLOv7 meningkatkan kedalaman blok komputasi sebesar 1.5 kali, dan menskalakan lebar sebesar 1.25 kali. 

Jika dibandingkan dengan model yang hanya meningkatkan kedalaman, model YOLOv7 berperforma lebih baik sebesar 0.5% saat menggunakan lebih sedikit parameter, dan daya komputasi. Di sisi lain, jika dibandingkan dengan model yang hanya meningkatkan kedalaman, akurasi YOLOv7 meningkat sebesar 0.2%, tetapi jumlah parameter perlu ditingkatkan sebesar 2.9%, dan perhitungan sebesar 1.2%. 

Usulan Model Re-Parameterized yang Direncanakan

Untuk memverifikasi keumuman model parameter ulang yang diusulkan, the Algoritma YOLOv7 menggunakannya pada model berbasis residu, dan berbasis gabungan untuk verifikasi. Untuk proses verifikasi menggunakan algoritma YOLOv7 ELAN 3 susun untuk model berbasis penggabungan, dan CSPDarknet untuk model berbasis residu. 

Untuk model berbasis rangkaian, algoritme menggantikan lapisan konvolusional 3x3 dalam ELAN 3 susun dengan RepConv. Gambar di bawah menunjukkan konfigurasi terperinci dari Planned RepConv, dan ELAN 3-tumpukan. 

Selanjutnya, ketika berhadapan dengan model berbasis residual, algoritma YOLOv7 menggunakan blok gelap terbalik karena blok gelap asli tidak memiliki blok konvolusi 3×3. Gambar di bawah menunjukkan arsitektur Reversed CSPDarknet yang membalikkan posisi lapisan konvolusional 3x3 dan 1x1. 

Usulan Kehilangan Asisten Kepala Pembantu

Untuk kerugian asisten untuk head tambahan, model YOLOv7 membandingkan penetapan label independen untuk head tambahan & metode head utama. 

Gambar di atas memuat hasil kajian terhadap kepala pembantu yang diusulkan. Dapat dilihat bahwa kinerja keseluruhan model meningkat dengan peningkatan kerugian asisten. Selain itu, penetapan label yang dipandu prospek yang diusulkan oleh model YOLOv7 berperforma lebih baik daripada strategi penugasan prospek independen. 

Hasil YOLOv7

Berdasarkan percobaan di atas, inilah hasil kinerja YOLov7 jika dibandingkan dengan algoritma pendeteksi objek lainnya. 

Gambar di atas membandingkan model YOLOv7 dengan algoritme deteksi objek lainnya, dan dapat diamati dengan jelas bahwa YOLOv7 melampaui model deteksi objek lain dalam hal Presisi Rata-Rata (AP) v/s gangguan batch

Selanjutnya, gambar di bawah ini membandingkan kinerja YOLOv7 v/s algoritma deteksi keberatan waktu nyata lainnya. Sekali lagi, YOLOv7 menggantikan model lain dalam hal performa, akurasi, dan efisiensi secara keseluruhan. 

Berikut beberapa pengamatan tambahan dari hasil & performa YOLOv7. 

  1. YOLOv7-Tiny adalah model terkecil dalam keluarga YOLO, dengan lebih dari 6 juta parameter. YOLOv7-Tiny memiliki Presisi Rata-rata 35.2%, dan mengungguli model YOLOv4-Tiny dengan parameter yang sebanding. 
  2. Model YOLOv7 memiliki lebih dari 37 juta parameter, dan mengungguli model dengan parameter lebih tinggi seperti YOLov4. 
  3. Model YOLOv7 memiliki tingkat mAP dan FPS tertinggi di kisaran 5 hingga 160 FPS. 

Kesimpulan

YOLO atau You Only Look Once adalah model deteksi objek canggih dalam visi komputer modern. Algoritme YOLO dikenal dengan akurasi dan efisiensinya yang tinggi, dan sebagai hasilnya, algoritme ini menemukan aplikasi yang luas dalam industri deteksi objek waktu nyata. Sejak algoritme YOLO pertama diperkenalkan pada tahun 2016, eksperimen telah memungkinkan pengembang untuk terus meningkatkan model. 

Model YOLOv7 adalah tambahan terbaru dalam keluarga YOLO, dan merupakan algoritme YOLO paling kuat hingga saat ini. Pada artikel ini, kami telah membicarakan dasar-dasar YOLOv7, dan mencoba menjelaskan apa yang membuat YOLOv7 begitu efisien. 

"Seorang insinyur berdasarkan profesi, seorang penulis dengan hati". Kunal adalah seorang penulis teknis dengan kecintaan mendalam & pemahaman AI dan ML, berdedikasi untuk menyederhanakan konsep kompleks di bidang ini melalui dokumentasinya yang menarik dan informatif.