stub YOLOv9: Бодит цагийн объект илрүүлэх үсрэлт - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

YOLOv9: Бодит цагийн объект илрүүлэх үсрэлт

mm

Нийтэлсэн

 on

Объект илрүүлэх ачаар сүүлийн жилүүдэд хурдацтай ахиж байна гүн гүнзгий суралцах YOLO (Та зөвхөн нэг удаа хараарай) гэх мэт алгоритмууд. Хамгийн сүүлийн үеийн давталт, YOLOv9, өмнөх хувилбаруудтай харьцуулахад нарийвчлал, үр ашиг, ашиглахад томоохон сайжруулалтыг авчирдаг. Энэ нийтлэлд бид YOLOv9-ийг бодит цагийн объект илрүүлэх шинэ дэвшилтэт технологи болгож буй шинэлэг зүйлүүдийг судлах болно.

Объект илрүүлэх хурдан праймер

YOLOv9-ийн шинэ зүйлд орохын өмнө объект илрүүлэх хэрхэн ажилладаг талаар товчхон авч үзье. Объект илрүүлэх зорилго нь зураг доторх машин, хүн, амьтан гэх мэт объектуудыг таних, олох явдал юм. Энэ нь өөрөө жолоодлоготой машин, хяналтын систем, зураг хайх зэрэг програмуудад зориулсан гол чадвар юм.

Илрүүлэгч нь дүрсийг оролт болгон авч, илрүүлсэн объектуудын эргэн тойронд хязгаарлах хайрцагуудыг гаргадаг бөгөөд тус бүр нь холбогдох ангийн шошготой байдаг. MS COCO гэх мэт алдартай өгөгдлийн багцууд нь эдгээр загваруудыг сургах, үнэлэх олон мянган хаяглагдсан зургуудыг өгдөг.

Объект илрүүлэх хоёр үндсэн арга байдаг:

  • Хоёр үе шаттай илрүүлэгч Faster R-CNN гэх мэт эхлээд бүсийн саналуудыг гаргаж, дараа нь бүс тус бүрийн хил хязгаарыг ангилж, сайжруулдаг. Тэд илүү нарийвчлалтай боловч удаан байдаг.
  • Нэг үе шаттай детекторууд YOLO шиг загвараа зураг дээр шууд нэг дамжуулалтаар хийнэ. Тэд маш хурдан дүгнэлт хийх хугацаанд тодорхой нарийвчлалыг арилгадаг.

YOLO нь нэг үе шаттай аргыг анхлан гаргасан. Нарийвчлал, үр ашгийг дээшлүүлэхийн тулд хэд хэдэн хувилбарт хэрхэн өөрчлөгдсөнийг харцгаая.

YOLO-ийн өмнөх хувилбаруудын тойм

YOLO (Та зөвхөн нэг удаа хардаг) загваруудын гэр бүл нь 2016 онд анхны хувилбар нь хэвлэгдэн гарснаас хойш объектыг хурдан илрүүлэх чиглэлээр тэргүүлж ирсэн. YOLO олон давталтаар хэрхэн ахиц дэвшсэн тухай товч тоймыг эндээс үзнэ үү.

  • YOLOv1 нэг дамжуулалтаар бүтэн зургуудаас шууд хязгаарлах хайрцаг болон ангиллын магадлалыг урьдчилан таамаглах нэгдсэн загварыг санал болгосон. Энэ нь өмнөх хоёр үе шаттай загвартай харьцуулахад маш хурдан болсон.
  • YOLOv2 Тогтвортой байдлыг хангахын тулд багц хэвийн болгох, олон хэмжээсийг илрүүлэхийн тулд хайрцгийг янз бүрийн масштаб, харьцаагаар бэхлэх, бусад олон төрлийн оновчлолыг ашиглан эх хувилбар дээр сайжруулсан.
  • YOLOv3 нь Darknet-53 хэмээх шинэ функцийн олборлогчийг нэмж, тэдгээрийн хооронд илүү олон давхаргууд болон товчлолуудыг нэмж, нарийвчлалыг улам сайжруулав.
  • YOLOv4 бусад объект илрүүлэгч болон сегментчлэлийн загваруудын санааг нэгтгэж, хурдан дүгнэлтийг хадгалахын зэрэгцээ нарийвчлалыг илүү өндөр түвшинд хүргэв.
  • YOLOv5 PyTorch дээр YOLOv4-ийг бүрэн дахин бичиж, CSPDarknet нэртэй шинэ функцийг задлах үндсэн хэсгийг бусад хэд хэдэн сайжруулалтын хамт нэмсэн.
  • YOLOv6 Гүйцэтгэлийг цаашид нэмэгдүүлэхийн тулд загваруудыг том хэмжээний гадаад мэдээллийн багц дээр урьдчилан бэлтгэж, архитектур, сургалтын үйл явцыг оновчтой болгосоор байна.

Дүгнэж хэлэхэд, өмнөх YOLO хувилбарууд нь загвар архитектур, сургалтын арга техник, бэлтгэлийн өмнөх бэлтгэлийг сайжруулснаар илүү өндөр нарийвчлалтай болсон. Гэвч загварууд томорч, илүү төвөгтэй болохын хэрээр хурд, үр ашиг буурч эхэлдэг.

Илүү үр ашигтай байх хэрэгцээ

Тооцооллын хязгаарлагдмал нөөцтэй төхөөрөмжүүд дээр бодит цаг хугацаанд ажиллахын тулд олон програмууд объект илрүүлэхийг шаарддаг. Загварууд томорч, тооцоолоход илүү эрчимтэй байх тусам тэдгээрийг ашиглах боломжгүй болно.

Жишээлбэл, өөрөө жолооддог машин нь тээврийн хэрэгслийн доторх процессоруудыг ашиглан өндөр фрэймийн хурдтай объектуудыг илрүүлэх шаардлагатай байдаг. Аюулгүй байдлын камер нь өөрийн суулгасан техник хангамжийн хүрээнд видео хангамж дээрээ объект илрүүлэхийг ажиллуулах шаардлагатай. Утас болон бусад хэрэглээний төхөөрөмжүүд нь маш хатуу эрчим хүч, дулааны хязгаарлалттай байдаг.

Сүүлийн үеийн YOLO хувилбарууд нь олон тооны параметрүүд болон үржүүлэх-нэмэх үйлдлүүд (FLOPs) бүхий өндөр нарийвчлалыг олж авдаг. Гэхдээ энэ нь хурд, хэмжээ, эрчим хүчний хэмнэлттэй холбоотой.

Жишээлбэл, YOLOv5-L нь 100×1280 хэмжээтэй нэг зургийг боловсруулахад 1280 тэрбум гаруй FLOP шаарддаг. Бодит цагийн хэрэглээний олон тохиолдлуудад энэ нь хэтэрхий удаан байна. Томоохон загваруудын чиг хандлага нь хэт зохицох эрсдлийг нэмэгдүүлж, ерөнхийд нь хэлэхэд хэцүү болгодог.

Тиймээс объект илрүүлэх үйл ажиллагааг өргөжүүлэхийн тулд үр ашгийг дээшлүүлэх арга замууд хэрэгтэй - бага параметр, тооцоололтой илүү нарийвчлалтай болох. Энэ сорилтыг даван туулахын тулд YOLOv9-д ашигласан арга техникийг харцгаая.

YOLOv9 – Бага нөөцөөр илүү нарийвчлалтай

YOLOv9-ийн ард байгаа судлаачид өргөн хүрээний төхөөрөмжүүдэд бодит цагийн гүйцэтгэлд хүрэхийн тулд үр ашгийг дээшлүүлэхэд анхаарлаа хандуулсан. Тэд хоёр гол инновацийг нэвтрүүлсэн:

  1. гэж нэрлэдэг шинэ загвар архитектур Ерөнхий үр ашигтай давхаргын нэгтгэх сүлжээ (GELAN) Энэ нь параметр болон FLOP-ийг багасгахын зэрэгцээ нарийвчлалыг дээд зэргээр нэмэгдүүлдэг.
  2. гэж нэрлэдэг сургалтын техник Програмчлагдах градиент мэдээлэл (PGI) Энэ нь илүү найдвартай сургалтын градиент, ялангуяа жижиг загваруудад зориулагдсан.

Эдгээр дэвшил бүр үр ашгийг дээшлүүлэхэд хэрхэн тусалж байгааг харцгаая.

GELAN-тай илүү үр дүнтэй архитектур

Загварын архитектур нь дүгнэлт хийх явцад хурд болон нөөцийн ашиглалтын нарийвчлалыг тэнцвэржүүлэхэд маш чухал юм. Мэдрэлийн сүлжээ нь оролтын зургуудаас холбогдох шинж чанаруудыг авахын тулд хангалттай гүн, өргөнтэй байх шаардлагатай. Гэхдээ хэт олон давхарга эсвэл шүүлтүүр нь удаан, хавдсан загварт хүргэдэг.

Зохиогчид GELAN-ийг хамгийн бага архитектураас хамгийн дээд нарийвчлалыг шахах зорилгоор тусгайлан зохион бүтээсэн.

GELAN нь овоолсон хоёр үндсэн блокыг ашигладаг:

  • Давхаргыг үр дүнтэй нэгтгэх блокууд – Олон төрлийн функцийг үр дүнтэй авахын тулд сүлжээний олон салбар дахь эдгээр өөрчлөлтүүдийг нэгтгэдэг.
  • Тооцооллын блокууд – CSPNet блокууд нь мэдээллийг давхаргуудаар түгээхэд тусалдаг. Тооцооллын хязгаарлалт дээр үндэслэн аливаа блокыг орлуулж болно.

Эдгээр блокуудыг сайтар тэнцвэржүүлж, нэгтгэснээр GELAN нь гүйцэтгэл, параметрүүд болон хурдны хооронд хамгийн таатай цэгийг олж авдаг. Ижил модульчлагдсан архитектур нь өөр өөр хэмжээтэй загвар, техник хангамжийг нэмэгдүүлэх эсвэл багасгах боломжтой.

Туршилтууд нь GELAN нь өмнөх YOLO архитектуртай харьцуулахад жижиг загваруудад илүү гүйцэтгэлтэй нийцдэг болохыг харуулсан. Жишээлбэл, 7M параметртэй GELAN-Small нь 11M параметрийн YOLOv7-Nano-аас илүү гарсан. Мөн 20М параметр бүхий GELAN-Medium нь 7-35M параметр шаарддаг YOLOv40 дундаж загвартай ижил түвшинд ажилладаг.

Тиймээс GELAN нь үр ашгийн үүднээс тусгайлан тохируулсан параметржүүлсэн архитектурыг зохион бүтээснээр загваруудыг илүү хурдан бөгөөд нөөц хязгаарлагдмал төхөөрөмж дээр ажиллуулах боломжийг олгодог. Дараа нь бид PGI тэдэнд хэрхэн илүү сайн сургахад туслахыг харах болно.

Програмчлагдах градиент мэдээлэлтэй (PGI) илүү сайн сургалт

Загварын сургалт нь хязгаарлагдмал нөөцөөр нарийвчлалыг нэмэгдүүлэхийн тулд адил чухал юм. YOLOv9-ийн зохиогчид найдваргүй градиент мэдээллээс үүдэлтэй жижиг загваруудыг сургах асуудлыг тодорхойлсон.

Градиент сургалтын явцад загвар өмсөгчдийн жин хэр их шинэчлэгдэж байгааг тодорхойлох. Шуугиантай эсвэл төөрөгдүүлсэн градиент нь муу нийлэхэд хүргэдэг. Энэ асуудал жижиг сүлжээнүүдэд илүү тод илэрдэг.

Арга техник гүн хяналт сүлжээгээр илүү сайн градиент дохиог түгээхийн тулд алдагдалтай хажуугийн нэмэлт салбаруудыг нэвтрүүлэх замаар үүнийг шийддэг. Гэхдээ энэ нь жижиг жинтэй загваруудын хувьд эвдэрч, зөрүүдлэх хандлагатай байдаг.

YOLOv9: Програмчлагдах градиент мэдээллийг ашиглан юу сурахыг хүсч байгаагаа сурах

YOLOv9: Програмчлагдсан градиент мэдээллийг ашиглан юу сурахыг хүсч байгаагаа сурах нь https://arxiv.org/abs/2402.13616

Энэхүү хязгаарлалтыг даван туулахын тулд YOLOv9 танилцуулж байна Програмчлагдах градиент мэдээлэл (PGI). PGI нь хоёр үндсэн бүрэлдэхүүн хэсэгтэй:

  • Туслах урвуу салбарууд – Эдгээр нь RevCols гэх мэт блокуудыг ашиглан оролт руу урвуу холболтыг хадгалах замаар илүү цэвэр градиент өгдөг.
  • Олон түвшний градиент интеграцчилал – Энэ нь янз бүрийн хажуугийн мөчрүүдийн хөндлөнгийн ялгаанаас зайлсхийдэг. Энэ нь үндсэн загвар руу буцахаасаа өмнө бүх салбаруудын градиентийг нэгтгэдэг.

Илүү найдвартай градиент үүсгэснээр PGI нь жижиг загваруудыг том загваруудтай адил үр дүнтэй сургахад тусалдаг:

Туршилтууд нь PGI нь бүх загварын хэмжээ, ялангуяа жижиг тохиргоонуудын нарийвчлалыг сайжруулсан болохыг харуулсан. Жишээлбэл, энэ нь YOLOv9-Small-ийн AP оноог GELAN-Small-ийн үндсэн үзүүлэлтээс 0.1-0.4%-иар нэмэгдүүлсэн. 9% mAP-тай YOLOv55.6-E гэх мэт илүү гүнзгий загваруудын хувьд ашиг нь илүү чухал байсан.

Тиймээс PGI нь жижиг, үр ашигтай загваруудыг өмнө нь зөвхөн хэт параметртэй загваруудад хүрч болох өндөр нарийвчлалын түвшинд сургах боломжийг олгодог.

YOLOv9 нь үр ашгийг дээшлүүлэх шинэ дэвшилтэт технологийг нэвтрүүллээ

GELAN-ийн архитектурын дэвшлийг PGI-ийн сургалтын сайжруулалттай хослуулснаар YOLOv9 нь урьд өмнө хэзээ ч байгаагүй үр ашиг, гүйцэтгэлд хүрдэг.

  • Өмнөх YOLO хувилбаруудтай харьцуулахад YOLOv9-г олж авдаг 10-15% бага параметр, 25% бага тооцоололтой илүү нарийвчлалтай. Энэ нь загварын хэмжээнүүдийн хурд, чадавхид томоохон сайжруулалтыг авчирдаг.
  • YOLOv9 нь YOLO-MS болон RT-DETR зэрэг бусад бодит цагийн детекторуудаас давуу юм. параметрийн үр ашиг ба FLOPs. Энэ нь өгөгдсөн гүйцэтгэлийн түвшинд хүрэхийн тулд хамаагүй бага нөөц шаарддаг.
  • Жижиг YOLOv9 загварууд нь RT-DETR-X гэх мэт урьдчилан бэлтгэгдсэн том загваруудыг ч давсан. Ашигласан ч гэсэн 36% бага параметрүүд, YOLOv9-E хүрч байна илүү сайн 55.6% AP илүү үр дүнтэй архитектуруудаар дамжуулан.

Тиймээс архитектур болон сургалтын түвшинд үр ашгийг дээшлүүлэх замаар YOLOv9 нь хязгаарлагдмал нөөцийн хүрээнд гүйцэтгэлийг нэмэгдүүлэх хамгийн сүүлийн үеийн шинэ технологийг бий болгож байна.

GELAN – Үр ашгийн хувьд оновчтой архитектур

YOLOv9 нь хамгийн бага параметрийн төсөвт нарийвчлалыг нэмэгдүүлэх Ерөнхий үр ашигтай давхаргын нэгтгэх сүлжээ (GELAN) хэмээх шинэ архитектурыг нэвтрүүлж байна. Энэ нь өмнөх YOLO загварууд дээр суурилсан боловч үр ашгийн үүднээс төрөл бүрийн бүрэлдэхүүн хэсгүүдийг оновчтой болгодог.

https://arxiv.org/abs/2402.13616

YOLOv9: Програмчлагдах градиент мэдээллийг ашиглан юу сурахыг хүсч байгаагаа сурах
https://arxiv.org/abs/2402.13616

CSPNet болон ELAN дээрх суурь мэдээлэл

v5-аас хойшхи сүүлийн үеийн YOLO хувилбарууд нь үр ашгийг дээшлүүлэх үүднээс Cross-Stage Partal Network (CSPNet) дээр суурилсан тулгууруудыг ашигласан. CSPNet нь функцын газрын зургийг параллель сүлжээний салбаруудаар нэгтгэхийн зэрэгцээ хамгийн бага зардал нэмэх боломжийг олгодог:

Энэ нь давхаргыг цуваагаар овоолохоос илүү үр дүнтэй бөгөөд энэ нь ихэвчлэн илүүдэл тооцоолол, хэт параметржилтэд хүргэдэг.

YOLOv7 нь CSPNet-ийг Efficient Layer Aggregation Network (ELAN) болгон сайжруулсан бөгөөд энэ нь блокийн бүтцийг хялбаршуулсан:

ELAN нь гаралт дээрх нэгтгэх зангилааг ашиглахын тулд давхаргын хоорондох холбоосыг устгасан. Энэ нь параметр болон FLOP-ийн үр ашгийг улам сайжруулсан.

Уян хатан үр ашигтай байхын тулд ELAN-г ерөнхийд нь авч үзэх

Зохиогчид бий болгохын тулд ELAN-г улам бүр ерөнхийлсөн ГЭЛАН, YOLOv9-д ашигласан нуруу. GELAN уян хатан байдал, үр ашгийг дээшлүүлэх үндсэн өөрчлөлтүүдийг хийсэн:

  • Солих боломжтой тооцоолох блокууд – Өмнөх ELAN нь тогтмол эргэлтийн давхаргатай байсан. GELAN нь ResNets эсвэл CSPNet гэх мэт аливаа тооцооллын блокуудыг орлуулах боломжийг олгож, илүү архитектурын сонголтуудыг өгдөг.
  • Гүнзгий параметрчилал – Үндсэн салбар ба агрегаторын салбаруудын тусдаа блокийн гүн нь нөөцийн ашиглалтыг нарийн тохируулахад хялбар болгодог.
  • Тохиргоогоороо тогтвортой гүйцэтгэл – GELAN нь янз бүрийн блокийн төрөл, гүнд нарийвчлалыг хадгалж, уян хатан масштабтай болгох боломжийг олгодог.

Эдгээр өөрчлөлтүүд нь GELAN-ийг үр ашгийг нэмэгдүүлэх хүчирхэг боловч тохируулж болох тулгуур болгож байна.

Туршилтын явцад GELAN загварууд нь параметр бүрийн нарийвчлалын хувьд өмнөх YOLO архитектураас байнга давж гарсан:

  • GELAN-Small 7M параметртэй YOLOv7-Nano-ийн 11M параметрийг давлаа.
  • GELAN-Medium нь илүү хүнд жинтэй YOLOv7 дунд зэргийн загварт тохирсон

Тиймээс GELAN нь YOLO-г үр ашгийн янз бүрийн зорилтуудад өргөжүүлэхийн тулд оновчтой тулгуурыг өгдөг. Дараа нь бид PGI тэднийг илүү сайн сургахад хэрхэн туслахыг харах болно.

PGI - Бүх загварт зориулсан сайжруулсан сургалт

Архитектурын сонголт нь дүгнэлт хийх үед үр ашигт нөлөөлдөг бол сургалтын үйл явц нь загварын нөөцийн хэрэглээнд мөн нөлөөлдөг. YOLOv9 нь программчлагдах градиент мэдээлэл (PGI) хэмээх шинэ техникийг ашиглан өөр өөр загвар хэмжээ, нарийн төвөгтэй байдлын дагуу сургалтыг сайжруулдаг.

Найдваргүй градиентийн асуудал

Сургалтын явцад алдагдлын функц нь загварын гаралтыг газрын үнэний шошготой харьцуулж, параметрүүдийг шинэчлэхийн тулд алдааны градиентыг тооцдог. Дуу чимээтэй эсвэл төөрөгдүүлсэн градиент муу нэгдэл, үр ашигтай байдалд хүргэдэг.

Маш гүнзгий сүлжээнүүд нь үүнийг улам хүндрүүлдэг мэдээллийн түгжрэл – Гүн давхаргын градиент алдагдсан эсвэл шахсан дохиогоор эвдэрсэн.

Гүнзгий хяналт цэвэр градиент хангахын тулд алдагдалтай туслах хажуугийн мөчрүүдийг нэвтрүүлэхэд тусалдаг. Гэхдээ ихэнхдээ жижиг загваруудын хувьд задардаг, янз бүрийн салбар хоорондын хөндлөнгийн оролцоо, зөрүүг үүсгэдэг.

Тиймээс бидэнд бүх загвар, ялангуяа жижиг хэмжээтэй загварт ажиллах найдвартай градиент өгөх арга хэрэгтэй байна.

Програмчлагдах градиент мэдээллийг (PGI) танилцуулж байна.

Найдваргүй градиентийг арилгахын тулд YOLOv9 программчлагдах градиентийн мэдээллийг (PGI) санал болгож байна. PGI нь градиент чанарыг сайжруулах зорилготой хоёр үндсэн бүрэлдэхүүн хэсэгтэй:

1. Туслах урвуу салбарууд

Нэмэлт салбарууд өгдөг урвуу холболтууд RevCols гэх мэт блокуудыг ашиглан оролт руу буцна уу. Энэ нь мэдээллийн саад тотгороос зайлсхийж цэвэр градиентийг хадгалдаг.

2. Олон түвшний градиент интеграцчилал

Хамтарсан блок нь үндсэн загвар руу буцахаасаа өмнө бүх салбаруудын градиентийг нэгтгэдэг. Энэ нь салбар хоорондын ялгаа гарахаас сэргийлнэ.

Илүү найдвартай градиент үүсгэснээр PGI нь бүх загварын хэмжээнүүдийн сургалтын нэгдэл, үр ашгийг сайжруулдаг.

  • Хөнгөн загварууд өмнө нь ашиглаж чадахгүй байсан гүнзгий хяналтаас ашиг хүртэх болно
  • Илүү том загварууд илүү сайн ерөнхий ойлголт өгөх боломжтой цэвэр градиент авах

Туршилтууд нь PGI нь жижиг болон том YOLOv9 тохиргоонуудын нарийвчлалыг үндсэн GELAN-тай харьцуулахад нэмэгдүүлсэн болохыг харуулсан:

  • YOLOv0.1-Small-д зориулсан +0.4-9% AP
  • Томоохон YOLOv0.5 загваруудын хувьд +0.6-9% AP

Тиймээс PGI-ийн програмчлагдсан градиент нь том, жижиг загваруудыг илүү үр дүнтэй сургах боломжийг олгодог.

YOLOv9 нь хамгийн сүүлийн үеийн шинэ нарийвчлалыг тогтоов

GELAN-ийн архитектурын сайжруулалт болон PGI-ийн сургалтын сайжруулалтыг хослуулснаар YOLOv9 нь бодит цагийн объект илрүүлэх хамгийн сүүлийн үеийн шинэ үр дүнд хүрдэг.

COCO өгөгдлийн багц дээрх туршилтууд нь YOLOv9 нь өмнөх YOLO хувилбарууд болон YOLO-MS зэрэг бусад бодит цагийн детекторуудыг нарийвчлал, үр ашигтайгаар давж гарсныг харуулж байна:

Зарим гол онцлох зүйлс:

  • YOLOv9-Small нь YOLO-MS-Small-аас давж, 10%-иар бага параметр, тооцоололтой
  • YOLOv9-Medium нь нөөцийн талаас бага хувийг ашиглан илүү хүнд жинтэй YOLOv7 загварт тохирно
  • YOLOv9-Large нь YOLOv8-X-ээс 15%-иар бага параметр, 25%-иар бага FLOP-оор илүү сайн үзүүлэлттэй байна

Сонирхолтой нь, жижиг YOLOv9 загварууд нь RT-DETR-X гэх мэт урьдчилсан бэлтгэлийг ашигладаг бусад детекторуудаас илүү хүнд загваруудаас ч илүү байдаг. 4 дахин бага параметртэй хэдий ч YOLOv9-E нь RT-DETR-X-ээс илүү нарийвчлалтай байдаг.

Эдгээр үр дүн нь YOLOv9-ийн өндөр үр ашгийг харуулж байна. Сайжруулалт нь илүү бодит хэрэглээний тохиолдлуудад объектыг өндөр нарийвчлалтай илрүүлэх боломжийг олгодог.

YOLOv9-ийн шинэчлэлтийн гол зөвлөмжүүд

YOLOv9-ийн хамгийн сүүлийн үеийн гүйцэтгэлийг идэвхжүүлдэг зарим гол шинэчлэлтүүд болон инновацийн талаар товч дурдъя:

  • GELAN оновчтой архитектур – Уян хатан нэгтгэх блокуудын тусламжтайгаар параметрийн үр ашгийг сайжруулна. Янз бүрийн зорилтод зориулж загваруудыг масштаблахыг зөвшөөрдөг.
  • Програмчлагдах боломжтой градиент мэдээлэл – Урвуу холболт болон хайлуулах замаар найдвартай градиентийг хангана. Загварын хэмжээсээр сургалтыг сайжруулдаг.
  • Бага нөөцөөр илүү нарийвчлалтай – YOLOv10-аас илүү нарийвчлалтайгаар параметр болон тооцооллыг 15-8%-иар бууруулдаг. Илүү үр дүнтэй дүгнэлт гаргах боломжийг олгодог.
  • Загварын хэмжээнүүдийн хувьд дээд зэргийн үр дүн – Хөнгөн, дунд, том загварын тохиргоонд хамгийн сүүлийн үеийн шинэлэг зүйлсийг тохируулна. Урьдчилан бэлтгэгдсэн загваруудаас илүү сайн.
  • Өргөтгөсөн хэрэглээ – Өндөр үр ашиг нь захын төхөөрөмжүүд дээр бодит цагийн илрүүлэлт гэх мэт ашиглах боломжтой тохиолдлуудыг өргөжүүлдэг.

YOLOv9 нь нарийвчлал, үр ашигтай байдал, ашиглах боломжтой байдлыг шууд харгалзан үзснээр бодит ертөнцийн янз бүрийн хэрэгцээг хангахын тулд объект илрүүлэх ажлыг урагшлуулдаг. Шинэчлэлтүүд нь энэхүү чухал компьютерийн харааны чадавхид ирээдүйн инновацийн бат бөх суурийг бий болгож байна.

Би сүүлийн таван жилийг Machine Learning болон Deep Learning хэмээх гайхалтай ертөнцөд шимтэн өнгөрүүлэхэд зарцуулсан. Миний хүсэл тэмүүлэл, туршлага намайг AI/ML-д онцгойлон анхаарч, 50 гаруй төрлийн програм хангамжийн инженерийн төсөлд хувь нэмрээ оруулахад хүргэсэн. Миний байнгын сониуч зан намайг цаашид судлахыг хүсч буй Байгалийн хэлний боловсруулалт руу татсан.