எங்களை தொடர்பு கொள்ளுங்கள்

செயற்கை நுண்ணறிவு

YOLov9: நிகழ்நேர பொருள் கண்டறிதலில் ஒரு முன்னேற்றம்

mm

Published

 on

பொருள் கண்டறிதல் சமீபத்திய ஆண்டுகளில் விரைவான முன்னேற்றத்தைக் கண்டுள்ளது ஆழமான கற்றல் YOLO (நீங்கள் ஒருமுறை மட்டும் பாருங்கள்) போன்ற அல்காரிதம்கள் சமீபத்திய மறு செய்கை, YOLOv9, முந்தைய பதிப்புகளை விட துல்லியம், செயல்திறன் மற்றும் பொருந்தக்கூடிய தன்மையில் பெரிய மேம்பாடுகளைக் கொண்டுவருகிறது. இந்த இடுகையில், YOLOv9 ஐ நிகழ்நேர பொருள் கண்டறிதலுக்கான புதிய அதிநவீனமாக மாற்றும் கண்டுபிடிப்புகளில் மூழ்குவோம்.

பொருள் கண்டறிதலில் ஒரு விரைவான ப்ரைமர்

YOLOv9 இல் புதிதாக என்ன இருக்கிறது என்பதைப் பற்றி அறிந்து கொள்வதற்கு முன், பொருள் கண்டறிதல் எவ்வாறு செயல்படுகிறது என்பதைச் சுருக்கமாக மதிப்பாய்வு செய்வோம். கார்கள், மக்கள் அல்லது விலங்குகள் போன்ற ஒரு படத்தில் உள்ள பொருட்களைக் கண்டறிந்து கண்டறிவதே பொருள் கண்டறிதலின் குறிக்கோள். சுய-ஓட்டுநர் கார்கள், கண்காணிப்பு அமைப்புகள் மற்றும் படத் தேடல் போன்ற பயன்பாடுகளுக்கான முக்கிய திறன் இது.

டிடெக்டர் ஒரு படத்தை உள்ளீடாக எடுத்து, கண்டறியப்பட்ட பொருட்களைச் சுற்றி வரும் எல்லைப் பெட்டிகளை வெளியிடுகிறது, ஒவ்வொன்றும் தொடர்புடைய வகுப்பு லேபிளுடன். MS COCO போன்ற பிரபலமான தரவுத்தொகுப்புகள் இந்த மாதிரிகளைப் பயிற்றுவிப்பதற்கும் மதிப்பீடு செய்வதற்கும் ஆயிரக்கணக்கான லேபிளிடப்பட்ட படங்களை வழங்குகின்றன.

பொருள் கண்டறிதலுக்கு இரண்டு முக்கிய அணுகுமுறைகள் உள்ளன:

  • இரண்டு-நிலை கண்டுபிடிப்பாளர்கள் வேகமான R-CNN போன்றது முதலில் பிராந்திய முன்மொழிவுகளை உருவாக்குகிறது, பின்னர் ஒவ்வொரு பிராந்தியத்தின் எல்லைகளையும் வகைப்படுத்தி செம்மைப்படுத்துகிறது. அவை மிகவும் துல்லியமானவை ஆனால் மெதுவாக இருக்கும்.
  • ஒற்றை-நிலை கண்டுபிடிப்பாளர்கள் YOLO போன்ற ஒரு மாதிரியை ஒரே பாஸில் நேரடியாக படத்தின் மேல் பயன்படுத்தவும். அவை மிக விரைவான அனுமான நேரங்களுக்கு சில துல்லியத்தை வர்த்தகம் செய்கின்றன.

YOLO ஒற்றை-நிலை அணுகுமுறைக்கு முன்னோடியாக இருந்தது. துல்லியம் மற்றும் செயல்திறனை மேம்படுத்த பல பதிப்புகளில் இது எவ்வாறு உருவாகியுள்ளது என்பதைப் பார்ப்போம்.

முந்தைய YOLO பதிப்புகளின் மதிப்பாய்வு

2016 ஆம் ஆண்டு அசல் பதிப்பு வெளியிடப்பட்டதிலிருந்து, YOLO (நீங்கள் ஒருமுறை மட்டும் பாருங்கள்) மாடல்களின் குடும்பம் வேகமாகப் பொருள் கண்டறிவதில் முன்னணியில் உள்ளது. YOLO பல மறுமுறைகளில் எவ்வாறு முன்னேறியுள்ளது என்பது பற்றிய விரைவான கண்ணோட்டம்:

  • YOLOv1 ஒரே பாஸில் முழுப் படங்களிலிருந்து நேரடியாக எல்லைப் பெட்டிகள் மற்றும் வகுப்பு நிகழ்தகவுகளைக் கணிக்க ஒரு ஒருங்கிணைந்த மாதிரியை முன்மொழிந்தார். முந்தைய இரண்டு-நிலை மாடல்களுடன் ஒப்பிடும்போது இது மிகவும் வேகமாக இருந்தது.
  • YOLOv2 சிறந்த நிலைப்புத்தன்மைக்காக தொகுதி இயல்பாக்கத்தைப் பயன்படுத்துவதன் மூலம் அசல் மீது மேம்படுத்தப்பட்டது, பல்வேறு அளவுகளில் பெட்டிகளை நங்கூரமிடுதல் மற்றும் பல அளவுகளைக் கண்டறியும் விகிதங்கள் மற்றும் பல்வேறு மேம்படுத்தல்கள்.
  • YOLOv3 டார்க்நெட்-53 எனப்படும் புதிய அம்சம் பிரித்தெடுக்கும் கருவியைச் சேர்த்தது, அவற்றுக்கிடையே அதிக அடுக்குகள் மற்றும் குறுக்குவழிகள், மேலும் துல்லியத்தை மேம்படுத்துகிறது.
  • YOLOv4 மற்ற ஆப்ஜெக்ட் டிடெக்டர்கள் மற்றும் செக்மென்டேஷன் மாடல்களில் இருந்து ஒருங்கிணைக்கப்பட்ட யோசனைகள், வேகமான அனுமானத்தைப் பராமரிக்கும் அதே வேளையில் துல்லியத்தை இன்னும் அதிகமாக்குகிறது.
  • YOLOv5 YOLOv4 ஐ PyTorch இல் முழுமையாக மாற்றி எழுதப்பட்டது மற்றும் CSPDarknet எனப்படும் புதிய அம்சம் பிரித்தெடுக்கும் முதுகெலும்பையும் பல மேம்பாடுகளுடன் சேர்த்தது.
  • YOLOv6 கட்டிடக்கலை மற்றும் பயிற்சி செயல்முறையை மேம்படுத்துவதைத் தொடர்ந்தது, மேலும் செயல்திறனை அதிகரிக்க பெரிய வெளிப்புற தரவுத்தொகுப்புகளில் முன் பயிற்சியளிக்கப்பட்ட மாதிரிகள்.

எனவே சுருக்கமாக, முந்தைய YOLO பதிப்புகள் மாதிரி கட்டிடக்கலை, பயிற்சி நுட்பங்கள் மற்றும் முன் பயிற்சி ஆகியவற்றின் மூலம் அதிக துல்லியத்தை அடைந்தன. ஆனால் மாதிரிகள் பெரியதாகவும் சிக்கலானதாகவும் ஆக, வேகம் மற்றும் செயல்திறன் பாதிக்கப்படத் தொடங்குகின்றன.

சிறந்த செயல்திறனுக்கான தேவை

வரையறுக்கப்பட்ட கணக்கீட்டு ஆதாரங்களைக் கொண்ட சாதனங்களில் நிகழ்நேரத்தில் இயங்குவதற்குப் பல பயன்பாடுகளுக்குப் பொருள் கண்டறிதல் தேவைப்படுகிறது. மாதிரிகள் பெரியதாகவும், கணக்கீட்டு ரீதியாக தீவிரமானதாகவும் மாறும் போது, ​​அவை வரிசைப்படுத்துவது நடைமுறைக்கு மாறானது.

எடுத்துக்காட்டாக, ஒரு சுய-ஓட்டுநர் கார் வாகனத்தின் உள்ளே உள்ள செயலிகளைப் பயன்படுத்தி அதிக பிரேம் விகிதத்தில் பொருட்களைக் கண்டறிய வேண்டும். ஒரு பாதுகாப்பு கேமரா அதன் சொந்த உட்பொதிக்கப்பட்ட வன்பொருளில் அதன் வீடியோ ஊட்டத்தில் பொருள் கண்டறிதலை இயக்க வேண்டும். தொலைபேசிகள் மற்றும் பிற நுகர்வோர் சாதனங்கள் மிகவும் இறுக்கமான சக்தி மற்றும் வெப்பக் கட்டுப்பாடுகளைக் கொண்டுள்ளன.

சமீபத்திய YOLO பதிப்புகள் அதிக எண்ணிக்கையிலான அளவுருக்கள் மற்றும் பெருக்க-சேர் செயல்பாடுகளுடன் (FLOPs) அதிக துல்லியத்தைப் பெறுகின்றன. ஆனால் இது வேகம், அளவு மற்றும் ஆற்றல் திறன் ஆகியவற்றின் விலையில் வருகிறது.

எடுத்துக்காட்டாக, YOLOv5-L க்கு ஒரு 100×1280 படத்தைச் செயல்படுத்த 1280 பில்லியன் FLOPகள் தேவை. பல நிகழ்நேர பயன்பாட்டு நிகழ்வுகளுக்கு இது மிகவும் மெதுவாக உள்ளது. எப்போதும் பெரிய மாடல்களின் போக்கு அதிகப்படியான பொருத்துதலின் அபாயத்தை அதிகரிக்கிறது மற்றும் பொதுமைப்படுத்துவதை கடினமாக்குகிறது.

எனவே பொருள் கண்டறிதலின் பொருந்தக்கூடிய தன்மையை விரிவுபடுத்த, செயல்திறனை மேம்படுத்துவதற்கான வழிகள் நமக்குத் தேவை - குறைந்த அளவுருக்கள் மற்றும் கணக்கீடுகளுடன் சிறந்த துல்லியத்தைப் பெறுதல். இந்த சவாலை சமாளிக்க YOLOv9 இல் பயன்படுத்தப்படும் நுட்பங்களைப் பார்ப்போம்.

YOLov9 - குறைந்த வளங்களுடன் சிறந்த துல்லியம்

YOLOv9 இன் பின்னால் உள்ள ஆராய்ச்சியாளர்கள், பரந்த அளவிலான சாதனங்களில் நிகழ்நேர செயல்திறனை அடைவதற்காக செயல்திறனை மேம்படுத்துவதில் கவனம் செலுத்தினர். அவர்கள் இரண்டு முக்கிய கண்டுபிடிப்புகளை அறிமுகப்படுத்தினர்:

  1. என்ற புதிய மாடல் கட்டிடக்கலை பொது திறமையான அடுக்கு திரட்டல் நெட்வொர்க் (GELAN) அளவுருக்கள் மற்றும் FLOP களைக் குறைக்கும் போது துல்லியத்தை அதிகரிக்கிறது.
  2. என்று அழைக்கப்படும் ஒரு பயிற்சி நுட்பம் நிரல்படுத்தக்கூடிய சாய்வு தகவல் (PGI) இது மிகவும் நம்பகமான கற்றல் சாய்வுகளை வழங்குகிறது, குறிப்பாக சிறிய மாடல்களுக்கு.

இந்த முன்னேற்றங்கள் ஒவ்வொன்றும் எவ்வாறு செயல்திறனை மேம்படுத்த உதவுகின்றன என்பதைப் பார்ப்போம்.

GELAN உடன் மிகவும் திறமையான கட்டிடக்கலை

அனுமானத்தின் போது வேகம் மற்றும் வள பயன்பாட்டிற்கு எதிராக துல்லியத்தை சமநிலைப்படுத்துவதற்கு மாதிரி கட்டிடக்கலை மிகவும் முக்கியமானது. உள்ளீட்டுப் படங்களிலிருந்து தொடர்புடைய அம்சங்களைப் பிடிக்க நரம்பியல் நெட்வொர்க்கிற்கு போதுமான ஆழமும் அகலமும் தேவை. ஆனால் பல அடுக்குகள் அல்லது வடிகட்டிகள் மெதுவான மற்றும் வீங்கிய மாதிரிகளுக்கு வழிவகுக்கும்.

ஆசிரியர்கள் GELAN ஐ வடிவமைத்துள்ளனர், இது சாத்தியமான மிகச் சிறிய கட்டிடக்கலையிலிருந்து அதிகபட்ச துல்லியத்தை கசக்கிவிட வேண்டும்.

GELAN ஒன்றாக அடுக்கப்பட்ட இரண்டு முக்கிய கட்டுமானத் தொகுதிகளைப் பயன்படுத்துகிறது:

  • திறமையான அடுக்கு திரட்டல் தொகுதிகள் - பல அளவிலான அம்சங்களைத் திறம்படப் பிடிக்க, பல நெட்வொர்க் கிளைகளில் இவை மொத்தமாக மாற்றங்களைச் செய்கின்றன.
  • கணக்கீட்டு தொகுதிகள் - CSPNet தொகுதிகள் அடுக்குகள் முழுவதும் தகவலைப் பரப்ப உதவுகின்றன. எந்தத் தொகுதியையும் கணக்கீட்டுக் கட்டுப்பாடுகளின் அடிப்படையில் மாற்றலாம்.

இந்தத் தொகுதிகளை கவனமாக சமநிலைப்படுத்தி இணைப்பதன் மூலம், செயல்திறன், அளவுருக்கள் மற்றும் வேகம் ஆகியவற்றுக்கு இடையே GELAN ஒரு இனிமையான இடத்தைப் பெறுகிறது. ஒரே மாதிரியான கட்டமைப்பு வெவ்வேறு அளவுகள் மற்றும் வன்பொருளில் மேலே அல்லது கீழே அளவிட முடியும்.

முந்தைய YOLO கட்டமைப்புகளுடன் ஒப்பிடும்போது GELAN சிறிய மாடல்களில் அதிக செயல்திறனைப் பொருத்துகிறது என்று சோதனைகள் காட்டுகின்றன. எடுத்துக்காட்டாக, GELAN-Small with 7M அளவுருக்கள் 11M அளவுரு YOLOv7-Nano ஐ விட சிறப்பாக செயல்பட்டது. 20-7M அளவுருக்கள் தேவைப்படும் YOLOv35 நடுத்தர மாடல்களுக்கு இணையாக 40M அளவுருக்கள் கொண்ட GELAN-Medium.

எனவே செயல்திறனுக்காக குறிப்பாக உகந்ததாக ஒரு அளவுருவாக்கப்பட்ட கட்டமைப்பை வடிவமைப்பதன் மூலம், GELAN மாதிரிகள் வேகமாகவும் அதிக வளம் கட்டுப்படுத்தப்பட்ட சாதனங்களிலும் இயங்க அனுமதிக்கிறது. அடுத்ததாக PGI அவர்களுக்கு எப்படி சிறப்பாக பயிற்சியளிக்க உதவுகிறது என்பதைப் பார்ப்போம்.

நிரல்படுத்தக்கூடிய சாய்வுத் தகவலுடன் (PGI) சிறந்த பயிற்சி

வரையறுக்கப்பட்ட ஆதாரங்களுடன் துல்லியத்தை அதிகரிக்க மாதிரி பயிற்சியும் முக்கியமானது. YOLOv9 ஆசிரியர்கள் நம்பத்தகாத சாய்வுத் தகவலால் ஏற்படும் சிறிய மாதிரிகள் பயிற்சி சிக்கல்களை அடையாளம் கண்டுள்ளனர்.

சரிவுகள் பயிற்சியின் போது ஒரு மாதிரியின் எடை எவ்வளவு புதுப்பிக்கப்படுகிறது என்பதை தீர்மானிக்கவும். சத்தம் அல்லது தவறாக வழிநடத்தும் சாய்வுகள் மோசமான ஒருங்கிணைப்புக்கு வழிவகுக்கும். சிறிய நெட்வொர்க்குகளுக்கு இந்த சிக்கல் மிகவும் உச்சரிக்கப்படுகிறது.

இன் நுட்பம் ஆழமான மேற்பார்வை நெட்வொர்க் மூலம் சிறந்த சாய்வு சமிக்ஞையை பரப்புவதற்கு இழப்புகளுடன் கூடுதல் பக்க கிளைகளை அறிமுகப்படுத்துவதன் மூலம் இதை நிவர்த்தி செய்கிறது. ஆனால் அது உடைந்து சிறிய இலகுரக மாடல்களுக்கு வேறுபாட்டை ஏற்படுத்துகிறது.

YOLov9: நிரல்படுத்தக்கூடிய சாய்வுத் தகவலைப் பயன்படுத்தி நீங்கள் கற்றுக்கொள்ள விரும்புவதைக் கற்றல்

YOLOv9: நிரல்படுத்தக்கூடிய சாய்வுத் தகவலைப் பயன்படுத்தி நீங்கள் கற்றுக்கொள்ள விரும்புவதைக் கற்றுக்கொள்வது https://arxiv.org/abs/2402.13616

இந்த வரம்பைப் போக்க, YOLOv9 அறிமுகப்படுத்துகிறது நிரல்படுத்தக்கூடிய சாய்வு தகவல் (PGI). PGI இரண்டு முக்கிய கூறுகளைக் கொண்டுள்ளது:

  • துணை மீளக்கூடிய கிளைகள் - இவை RevCols போன்ற பிளாக்குகளைப் பயன்படுத்தி உள்ளீட்டில் மீளக்கூடிய இணைப்புகளைப் பராமரிப்பதன் மூலம் தூய்மையான சாய்வுகளை வழங்குகின்றன.
  • பல நிலை சாய்வு ஒருங்கிணைப்பு - இது வெவ்வேறு பக்க கிளைகள் குறுக்கிடுவதில் இருந்து வேறுபடுவதைத் தவிர்க்கிறது. இது பிரதான மாதிரிக்கு திரும்புவதற்கு முன் அனைத்து கிளைகளிலிருந்தும் சாய்வுகளை ஒருங்கிணைக்கிறது.

மிகவும் நம்பகமான சாய்வுகளை உருவாக்குவதன் மூலம், PGI சிறிய மாதிரிகள் பெரியவற்றைப் போலவே திறம்பட பயிற்சியளிக்க உதவுகிறது:

சோதனைகள் அனைத்து மாதிரி அளவுகளிலும், குறிப்பாக சிறிய உள்ளமைவுகளிலும் PGI மேம்படுத்தப்பட்ட துல்லியத்தைக் காட்டியது. எடுத்துக்காட்டாக, இது YOLOv9-Small இன் AP மதிப்பெண்களை அடிப்படை GELAN-Small ஐ விட 0.1-0.4% அதிகரித்துள்ளது. 9% mAP இல் YOLOv55.6-E போன்ற ஆழமான மாடல்களுக்கு ஆதாயங்கள் இன்னும் குறிப்பிடத்தக்கவை.

எனவே PGI ஆனது சிறிய, திறமையான மாடல்களை அதிக அளவு துல்லியமான நிலைகளுக்கு பயிற்சியளிக்க உதவுகிறது.

YOLOv9 செயல்திறனுக்கான புதிய நவீன-கலை அமைக்கிறது

GELAN இன் கட்டடக்கலை முன்னேற்றங்களை PGI இன் பயிற்சி மேம்பாடுகளுடன் இணைப்பதன் மூலம், YOLOv9 முன்னோடியில்லாத திறன் மற்றும் செயல்திறனை அடைகிறது:

  • முந்தைய YOLO பதிப்புகளுடன் ஒப்பிடும்போது, ​​YOLOv9 பெறுகிறது 10-15% குறைவான அளவுருக்கள் மற்றும் 25% குறைவான கணக்கீடுகளுடன் சிறந்த துல்லியம். இது மாதிரி அளவுகளில் வேகம் மற்றும் திறனில் பெரிய மேம்பாடுகளைக் கொண்டுவருகிறது.
  • YOLO-MS மற்றும் RT-DETR போன்ற மற்ற நிகழ்நேர கண்டுபிடிப்பாளர்களை YOLOv9 விஞ்சியுள்ளது. அளவுரு செயல்திறன் மற்றும் FLOPகள். கொடுக்கப்பட்ட செயல்திறன் நிலையை அடைய மிகக் குறைவான ஆதாரங்கள் தேவை.
  • சிறிய YOLOv9 மாடல்கள், RT-DETR-X போன்ற பெரிய முன் பயிற்சி பெற்ற மாடல்களை கூட முறியடிக்கும். பயன்படுத்தினாலும் 36% குறைவான அளவுருக்கள், YOLov9-E சாதிக்கிறது சிறந்த 55.6% AP மிகவும் திறமையான கட்டிடக்கலை மூலம்.

எனவே கட்டிடக்கலை மற்றும் பயிற்சி நிலைகளில் செயல்திறனை நிவர்த்தி செய்வதன் மூலம், கட்டுப்படுத்தப்பட்ட வளங்களுக்குள் செயல்திறனை அதிகரிக்க YOLOv9 ஒரு புதிய அதிநவீன-கலை அமைக்கிறது.

GELAN - செயல்திறனுக்கான உகந்த கட்டிடக்கலை

YOLOv9 ஆனது ஜெனரல் எஃபிசியன்ட் லேயர் அக்ரிகேஷன் நெட்வொர்க் (GELAN) எனப்படும் புதிய கட்டமைப்பை அறிமுகப்படுத்துகிறது, இது குறைந்தபட்ச அளவுரு பட்ஜெட்டில் துல்லியத்தை அதிகரிக்கிறது. இது முந்தைய YOLO மாடல்களின் மேல் கட்டமைக்கப்பட்டுள்ளது, ஆனால் செயல்திறனுக்காக குறிப்பாக பல்வேறு கூறுகளை மேம்படுத்துகிறது.

https://arxiv.org/abs/2402.13616

YOLov9: நிரல்படுத்தக்கூடிய சாய்வுத் தகவலைப் பயன்படுத்தி நீங்கள் கற்றுக்கொள்ள விரும்புவதைக் கற்றல்
https://arxiv.org/abs/2402.13616

CSPNet மற்றும் ELAN இல் பின்னணி

V5 இலிருந்து சமீபத்திய YOLO பதிப்புகள் மேம்பட்ட செயல்திறனுக்காக கிராஸ்-ஸ்டேஜ் பார்ஷியல் நெட்வொர்க் (CSPNet) அடிப்படையிலான முதுகெலும்புகளைப் பயன்படுத்துகின்றன. சிஎஸ்பிநெட் அம்ச வரைபடங்களை இணையான நெட்வொர்க் கிளைகள் முழுவதும் ஒருங்கிணைக்க அனுமதிக்கிறது, அதே நேரத்தில் குறைந்தபட்ச மேல்நிலையைச் சேர்க்கிறது:

அடுக்குகளை தொடர்ச்சியாக அடுக்கி வைப்பதை விட இது மிகவும் திறமையானது, இது பெரும்பாலும் தேவையற்ற கணக்கீடு மற்றும் அதிகப்படியான அளவுருவுக்கு வழிவகுக்கிறது.

YOLOv7 CSPNet ஐ எஃபிசியன்ட் லேயர் அக்ரிகேஷன் நெட்வொர்க்காக (ELAN) மேம்படுத்தியது, இது தொகுதி கட்டமைப்பை எளிதாக்கியது:

வெளியீட்டில் ஒரு திரட்டல் முனைக்கு ஆதரவாக அடுக்குகளுக்கு இடையே உள்ள குறுக்குவழி இணைப்புகளை ELAN அகற்றியது. இது மேலும் மேம்படுத்தப்பட்ட அளவுரு மற்றும் FLOPகளின் செயல்திறன்.

நெகிழ்வான செயல்திறனுக்காக ELAN ஐப் பொதுமைப்படுத்துதல்

ஆசிரியர்கள் ELAN ஐ மேலும் உருவாக்க பொதுமைப்படுத்தினர் GELAN, YOLOv9 இல் பயன்படுத்தப்படும் முதுகெலும்பு. நெகிழ்வுத்தன்மை மற்றும் செயல்திறனை மேம்படுத்த GELAN முக்கிய மாற்றங்களைச் செய்தது:

  • பரிமாற்றக்கூடிய கணக்கீட்டு தொகுதிகள் - முந்தைய ELAN ஆனது கன்வல்யூஷனல் லேயர்களைக் கொண்டிருந்தது. GELAN ஆனது ResNets அல்லது CSPNet போன்ற எந்தவொரு கணக்கீட்டுத் தொகுதியையும் மாற்றுவதற்கு அனுமதிக்கிறது, மேலும் கட்டடக்கலை விருப்பங்களை வழங்குகிறது.
  • ஆழம் வாரியான அளவுரு - முதன்மைக் கிளைக்கு எதிராகத் திரட்டி கிளைக்கான தனித் தொகுதி ஆழம், நுண்ணிய-சரிப்படுத்தும் வளப் பயன்பாட்டை எளிதாக்குகிறது.
  • கட்டமைப்புகள் முழுவதும் நிலையான செயல்திறன் - GELAN பல்வேறு பிளாக் வகைகள் மற்றும் ஆழங்களுடன் துல்லியத்தை பராமரிக்கிறது, நெகிழ்வான அளவிடுதலை அனுமதிக்கிறது.

இந்த மாற்றங்கள் GELAN ஐ வலிமையான ஆனால் உள்ளமைக்கக்கூடிய முதுகெலும்பாக ஆக்குகின்றன:

சோதனைகளில், GELAN மாதிரிகள் ஒரு அளவுருவின் துல்லியத்தில் முந்தைய YOLO கட்டமைப்புகளை விட சிறப்பாக செயல்பட்டன:

  • GELAN-Small with 7M அளவுருக்கள் YOLOv7-Nano இன் 11M அளவுருக்களை வென்றது
  • GELAN-Medium பொருந்திய கனமான YOLOv7 நடுத்தர மாடல்கள்

எனவே GELAN பல்வேறு திறன் இலக்குகளில் YOLOவை அளவிடுவதற்கு உகந்த முதுகெலும்பை வழங்குகிறது. அடுத்ததாக PGI அவர்கள் எவ்வாறு சிறப்பாகப் பயிற்சி பெற உதவுகிறது என்பதைப் பார்ப்போம்.

PGI - அனைத்து மாதிரி அளவுகளுக்கும் மேம்படுத்தப்பட்ட பயிற்சி

அனுமான நேரத்தில் கட்டிடக்கலை தேர்வுகள் செயல்திறனை பாதிக்கும் அதே வேளையில், பயிற்சி செயல்முறை மாதிரி வள பயன்பாட்டையும் பாதிக்கிறது. வெவ்வேறு மாதிரி அளவுகள் மற்றும் சிக்கல்கள் முழுவதும் பயிற்சியை மேம்படுத்த, நிரல்படுத்தக்கூடிய சாய்வு தகவல் (PGI) எனப்படும் புதிய நுட்பத்தை YOLOv9 பயன்படுத்துகிறது.

நம்பமுடியாத சாய்வுகளின் சிக்கல்

பயிற்சியின் போது, ​​ஒரு இழப்பு செயல்பாடு மாதிரி வெளியீடுகளை கிரவுண்ட் ட்ரூட் லேபிள்களுடன் ஒப்பிடுகிறது மற்றும் அளவுருக்களைப் புதுப்பிக்க பிழை சாய்வு கணக்கிடுகிறது. சத்தம் அல்லது தவறாக வழிநடத்தும் சாய்வுகள் மோசமான ஒருங்கிணைப்பு மற்றும் செயல்திறனுக்கு வழிவகுக்கும்.

மிக ஆழமான நெட்வொர்க்குகள் மூலம் இதை அதிகப்படுத்துகிறது தகவல் இடையூறு - ஆழமான அடுக்குகளிலிருந்து சாய்வுகள் இழந்த அல்லது சுருக்கப்பட்ட சமிக்ஞைகளால் சிதைக்கப்படுகின்றன.

ஆழமான மேற்பார்வை தூய்மையான சாய்வுகளை வழங்க இழப்புகளுடன் துணை பக்க கிளைகளை அறிமுகப்படுத்துவதன் மூலம் உதவுகிறது. ஆனால் அது அடிக்கடி சிறிய மாடல்களுக்கு உடைகிறது, வெவ்வேறு கிளைகளுக்கு இடையில் குறுக்கீடு மற்றும் வேறுபாட்டை ஏற்படுத்துகிறது.

எனவே அனைத்து மாதிரி அளவுகளிலும், குறிப்பாக சிறிய அளவில் செயல்படும் நம்பகமான சாய்வுகளை வழங்க எங்களுக்கு ஒரு வழி தேவை.

நிரல்படுத்தக்கூடிய சாய்வுத் தகவலை (PGI) அறிமுகப்படுத்துகிறது

நம்பகத்தன்மையற்ற சாய்வுகளை நிவர்த்தி செய்ய, YOLOv9 நிரல்படுத்தக்கூடிய சாய்வுத் தகவலை (PGI) முன்மொழிகிறது. PGI ஆனது சாய்வு தரத்தை மேம்படுத்த வடிவமைக்கப்பட்ட இரண்டு முக்கிய கூறுகளைக் கொண்டுள்ளது:

1. துணை மீளக்கூடிய கிளைகள்

கூடுதல் கிளைகள் வழங்குகின்றன மீளக்கூடிய இணைப்புகள் RevCols போன்ற தொகுதிகளைப் பயன்படுத்தி உள்ளீட்டிற்குத் திரும்பு. இது தகவல் தடையைத் தவிர்த்து சுத்தமான சாய்வுகளை பராமரிக்கிறது.

2. பல நிலை சாய்வு ஒருங்கிணைப்பு

ஒரு இணைவுத் தொகுதியானது பிரதான மாதிரிக்குத் திரும்புவதற்கு முன் அனைத்து கிளைகளிலிருந்தும் சாய்வுகளை ஒருங்கிணைக்கிறது. இது கிளைகளில் வேறுபாட்டைத் தடுக்கிறது.

மிகவும் நம்பகமான சாய்வுகளை உருவாக்குவதன் மூலம், அனைத்து மாதிரி அளவுகளிலும் பயிற்சி ஒருங்கிணைப்பு மற்றும் செயல்திறனை PGI மேம்படுத்துகிறது:

  • இலகுரக மாதிரிகள் ஆழமான மேற்பார்வையின் பயனை அவர்களால் பயன்படுத்த முடியவில்லை
  • பெரிய மாதிரிகள் சிறந்த பொதுமைப்படுத்தலை செயல்படுத்தும் தூய்மையான சாய்வுகளைப் பெறுங்கள்

அடிப்படை GELAN இல் சிறிய மற்றும் பெரிய YOLOv9 உள்ளமைவுகளுக்கு PGI அதிகரித்த துல்லியத்தை சோதனைகள் காட்டுகின்றன:

  • YOLov0.1-Smallக்கு +0.4-9% AP
  • பெரிய YOLov0.5 மாடல்களுக்கு +0.6-9% AP

எனவே PGI இன் நிரல்படுத்தக்கூடிய சாய்வுகள் பெரிய மற்றும் சிறிய மாதிரிகளை மிகவும் திறமையாகப் பயிற்றுவிக்க உதவுகிறது.

YOLOv9 புதிய அதிநவீன துல்லியத்தை அமைக்கிறது

GELAN இலிருந்து கட்டடக்கலை மேம்பாடுகள் மற்றும் PGI இலிருந்து பயிற்சி மேம்பாடுகளை இணைப்பதன் மூலம், YOLOv9 நிகழ்நேர பொருள் கண்டறிதலுக்கான புதிய அதிநவீன முடிவுகளை அடைகிறது.

COCO தரவுத்தொகுப்பின் சோதனைகள் YOLOv9 முந்தைய YOLO பதிப்புகளை விஞ்சுவதைக் காட்டுகின்றன, அதே போல் YOLO-MS போன்ற பிற நிகழ்நேர டிடெக்டர்களையும் துல்லியம் மற்றும் செயல்திறனில் காட்டுகின்றன:

சில முக்கிய சிறப்பம்சங்கள்:

  • YOLOv9-சிறியது YOLO-MS-Small ஐ விட 10% குறைவான அளவுருக்கள் மற்றும் கணக்கீடுகளுடன்
  • YOLOv9-Medium எடையுள்ள YOLOv7 மாடல்களில் பாதிக்கும் குறைவான வளங்களைப் பயன்படுத்துகிறது
  • YOLOv9-லார்ஜ் 8% குறைவான அளவுருக்கள் மற்றும் 15% குறைவான FLOPகளுடன் YOLOv25-X ஐ விஞ்சுகிறது

குறிப்பிடத்தக்க வகையில், சிறிய YOLOv9 மாதிரிகள், RT-DETR-X போன்ற முன் பயிற்சியைப் பயன்படுத்தும் மற்ற டிடெக்டர்களின் கனமான மாடல்களைக் கூட மிஞ்சும். 4x குறைவான அளவுருக்கள் இருந்தாலும், YOLOv9-E துல்லியத்தில் RT-DETR-X ஐ விட சிறப்பாக செயல்படுகிறது.

இந்த முடிவுகள் YOLOv9 இன் சிறந்த செயல்திறனை நிரூபிக்கின்றன. இந்த மேம்பாடுகள் நிஜ உலக பயன்பாட்டு நிகழ்வுகளில் உயர் துல்லியமான பொருளைக் கண்டறிய உதவுகிறது.

YOLOv9 மேம்படுத்தல்களின் முக்கிய அம்சங்கள்

YOLOv9 இன் புதிய அதிநவீன செயல்திறனைச் செயல்படுத்தும் சில முக்கிய மேம்பாடுகள் மற்றும் புதுமைகளை விரைவாக மீட்டெடுப்போம்:

  • GELAN உகந்த கட்டிடக்கலை - நெகிழ்வான திரட்டல் தொகுதிகள் மூலம் அளவுரு செயல்திறனை மேம்படுத்துகிறது. வெவ்வேறு இலக்குகளுக்கான அளவிடுதல் மாதிரிகளை அனுமதிக்கிறது.
  • நிரல்படுத்தக்கூடிய சாய்வு தகவல் - மீளக்கூடிய இணைப்புகள் மற்றும் இணைவு மூலம் நம்பகமான சாய்வுகளை வழங்குகிறது. மாதிரி அளவுகளில் பயிற்சியை மேம்படுத்துகிறது.
  • குறைவான ஆதாரங்களுடன் அதிக துல்லியம் - சிறந்த துல்லியத்துடன் YOLOv10 ஐ விட அளவுருக்கள் மற்றும் கணக்கீடுகளை 15-8% குறைக்கிறது. மிகவும் திறமையான அனுமானத்தை செயல்படுத்துகிறது.
  • மாதிரி அளவுகள் முழுவதும் சிறந்த முடிவுகள் - இலகுரக, நடுத்தர மற்றும் பெரிய மாதிரி உள்ளமைவுகளுக்கு புதிய அதிநவீன அமைப்பை அமைக்கிறது. பெரிதும் முன் பயிற்சி பெற்ற மாடல்களை மிஞ்சும்.
  • விரிவாக்கப்பட்ட பொருந்தக்கூடிய தன்மை - உயர் செயல்திறன், எட்ஜ் சாதனங்களில் நிகழ்நேர கண்டறிதல் போன்ற சாத்தியமான பயன்பாட்டு நிகழ்வுகளை விரிவுபடுத்துகிறது.

துல்லியம், செயல்திறன் மற்றும் பொருந்தக்கூடிய தன்மையை நேரடியாக நிவர்த்தி செய்வதன் மூலம், YOLOv9 பல்வேறு நிஜ உலகத் தேவைகளைப் பூர்த்தி செய்ய பொருள் கண்டறிதலை முன்னோக்கி நகர்த்துகிறது. இந்த முக்கியமான கணினி பார்வை திறனில் எதிர்கால கண்டுபிடிப்புகளுக்கு மேம்படுத்தல்கள் வலுவான அடித்தளத்தை வழங்குகின்றன.

இயந்திர கற்றல் மற்றும் ஆழமான கற்றல் ஆகியவற்றின் கவர்ச்சிகரமான உலகில் மூழ்கி கடந்த ஐந்து வருடங்களாக நான் செலவிட்டேன். எனது ஆர்வமும் நிபுணத்துவமும் AI/ML இல் குறிப்பிட்ட கவனம் செலுத்தி, 50க்கும் மேற்பட்ட பல்வேறு மென்பொருள் பொறியியல் திட்டங்களில் பங்களிக்க என்னை வழிவகுத்தது. எனது தற்போதைய ஆர்வமும் என்னை இயற்கை மொழி செயலாக்கத்தை நோக்கி ஈர்த்துள்ளது, மேலும் நான் ஆராய ஆர்வமாக உள்ள ஒரு துறை.