Inteligență artificială
Dezvăluirea SAM 2: Noul model de bază open-source Meta pentru segmentarea obiectelor în timp real în videoclipuri și imagini
În ultimii ani, lumea inteligenței artificiale a cunoscut progrese remarcabile în domeniul inteligenței artificiale de bază pentru prelucrarea textului, cu avanțări care au transformat industrii de la servicii pentru clienți la analize juridice. Cu toate acestea, atunci când vine vorba de prelucrarea imaginilor, abia începem să atingem suprafața. Complexitatea datelor vizuale și provocările de a antrena modele pentru a interpreta și analiza cu acuratețe imaginile au prezentat obstacole semnificative. Pe măsură ce cercetătorii continuă să exploreze inteligența artificială de bază pentru imagini și videoclipuri, viitorul prelucrării imaginilor în inteligența artificială are potențialul de a inova în domenii precum sănătatea, vehiculele autonome și multe altele.
Segmentarea obiectelor, care implică identificarea exactă a pixelilor dintr-o imagine care corespund unui obiect de interes, este o sarcină critică în domeniul viziunii computaționale. În mod tradițional, acest lucru a implicat crearea de modele de inteligență artificială specializate, ceea ce necesită infrastructură extinsă și cantități mari de date annotate. Anul trecut, Meta a introdus Segment Anything Model (SAM), un model de inteligență artificială de bază care simplifică acest proces, permițând utilizatorilor să segmenteze imagini cu o simplă promptă. Această inovație a redus nevoia de expertiză specializată și resurse de calcul extinse, făcând segmentarea imaginilor mai accesibilă.
Acum, Meta merge mai departe cu SAM 2. Această nouă iterație nu numai că îmbunătățește capacitățile existente de segmentare a imaginilor ale SAM, dar le extinde și la prelucrarea videoclipurilor. SAM 2 poate segmenta orice obiect în imagini și videoclipuri, chiar și cele pe care nu le-a întâlnit anterior. Acest progres reprezintă un salt înainte în domeniul viziunii computaționale și al prelucrării imaginilor, oferind un instrument mai versatil și mai puternic pentru analizarea conținutului vizual. Mai jos, explorăm avanțările interesante ale SAM 2 și potențialul său de a redefini domeniul viziunii computaționale.
Prezentarea modelului Segment Anything (SAM)
Metodele tradiționale de segmentare necesită fie o refinențare manuală, cunoscută sub numele de segmentare interactivă, fie date annotate extinse pentru segmentarea automată în categorii predefinite. SAM este un model de inteligență artificială de bază care susține segmentarea interactivă utilizând prompte versatile, cum ar fi clicuri, cutii sau intrări de text. De asemenea, poate fi ajustat cu date și resurse de calcul minime pentru segmentarea automată. Antrenat pe peste 1 miliard de anotări de imagini diverse, SAM poate gestiona obiecte și imagini noi fără a necesita colectarea de date personalizate sau ajustări.
SAM funcționează cu două componente principale: un codificator de imagine care prelucrează imaginea și un codificator de prompt care gestionează intrările, cum ar fi clicurile sau textul. Aceste componente se combină cu un decodificator ușor pentru a prezice măști de segmentare. Odată ce imaginea este prelucrată, SAM poate crea un segment în doar 50 de milisecunde într-un browser web, făcându-l un instrument puternic pentru sarcini interactive în timp real. Pentru a construi SAM, cercetătorii au dezvoltat un proces de colectare a datelor în trei etape: anotare asistată de model, o combinație de anotare automată și asistată, și crearea complet automată a măștilor. Acest proces a rezultat în setul de date SA-1B, care include peste 1,1 miliarde de măști pe 11 milioane de imagini licențiate și care respectă confidențialitatea—fiind de 400 de ori mai mare decât orice set de date existent. Performanța impresionantă a SAM provine din acest set de date extins și divers, asigurând o reprezentare mai bună în diferite regiuni geografice în comparație cu seturile de date anterioare.
Prezentarea SAM 2: Un salt de la segmentarea imaginilor la segmentarea videoclipurilor
Construit pe baza SAM, SAM 2 este proiectat pentru segmentarea obiectelor în timp real, promptabilă, în imagini și videoclipuri. În contrast cu SAM, care se concentrează exclusiv pe imagini statice, SAM 2 prelucrează videoclipurile prin tratarea fiecărui cadru ca parte a unei secvențe continue. Acest lucru permite SAM 2 să gestioneze scene dinamice și conținut în schimbare mai eficient. Pentru segmentarea imaginilor, SAM 2 nu numai că îmbunătățește capacitățile SAM, dar funcționează și de trei ori mai rapid în sarcinile interactive.
SAM 2 păstrează aceeași arhitectură ca SAM, dar introduce un mecanism de memorie pentru prelucrarea videoclipurilor. Această funcție permite SAM 2 să păstreze informații din cadrele anterioare, asigurând o segmentare consistentă a obiectelor, în ciuda schimbărilor de mișcare, iluminare sau acoperire. Prin referință la cadrele anterioare, SAM 2 poate rafina predicțiile măștilor de segmentare pe tot parcursul videoclipului.
Modelul este antrenat pe un set de date nou dezvoltat, setul de date SA-V, care include peste 600.000 de anotări de măști pe 51.000 de videoclipuri din 47 de țări. Acest set de date divers acoperă atât obiecte complete, cât și părți ale lor, îmbunătățind precizia SAM 2 în segmentarea videoclipurilor din lumea reală.
SAM 2 este disponibil ca model open-source sub licența Apache 2.0, făcându-l accesibil pentru diverse utilizări. Meta a partajat și setul de date utilizat pentru SAM 2 sub licența CC BY 4.0. În plus, există o demonstrație bazată pe web care permite utilizatorilor să exploreze modelul și să vadă cum funcționează.
Cazuri de utilizare
Capacitățile SAM 2 de segmentare a obiectelor în timp real, promptabile, pentru imagini și videoclipuri, au deblocat numeroase aplicații inovatoare în diverse domenii. De exemplu, unele dintre aceste aplicații sunt următoarele:
- Diagnosticare medicală: SAM 2 poate îmbunătăți semnificativ asistența chirurgicală în timp real prin segmentarea structurilor anatomice și identificarea anomaliilor în fluxuri video live în sala de operație. De asemenea, poate îmbunătăți analiza imaginilor medicale prin furnizarea unei segmentări precise a organelor sau tumorilor în scanări medicale.
- Vehicule autonome: SAM 2 poate îmbunătăți sistemele de vehicule autonome prin îmbunătățirea preciziei de detectare a obiectelor prin segmentarea și urmărirea continuă a pietonilor, vehiculelor și semnelor de circulație pe cadre de videoclip. Capacitatea sa de a gestiona scene dinamice sprijină, de asemenea, sistemele de navigație adaptivă și de evitare a coliziunilor prin recunoașterea și răspunsul la schimbările de mediu în timp real.
- Media interactivă și divertisment: SAM 2 poate îmbunătăți aplicațiile de realitate augmentată (AR) prin segmentarea precisă a obiectelor în timp real, făcându-le mai ușor de integrat cu lumea reală. De asemenea, beneficiază editarea videoclipurilor prin automatizarea segmentării obiectelor în filmări, simplificând procese precum eliminarea fundalului și înlocuirea obiectelor.
- Monitorizarea mediului: SAM 2 poate asista la urmărirea animalelor sălbatice prin segmentarea și monitorizarea lor în videoclipuri, sprijinind cercetarea speciilor și studiile de habitat. În răspunsul la dezastre, poate evalua daunele și ghida eforturile de răspuns prin segmentarea precisă a zonelor și obiectelor afectate în fluxuri video.
- Comerțul cu amănuntul și comerțul electronic: SAM 2 poate îmbunătăți vizualizarea produselor în comerțul electronic prin activarea segmentării interactive a produselor în imagini și videoclipuri. Acest lucru poate oferi clienților capacitatea de a vedea articolele din diverse unghiuri și contexte. Pentru gestionarea stocurilor, ajută retailerii să urmărească și să segmenteze produsele de pe rafturi în timp real, simplificând inventarierea și îmbunătățind controlul general al stocurilor.
Depășirea limitărilor SAM 2: Soluții practice și îmbunătățiri viitoare
Deși SAM 2 funcționează bine cu imagini și videoclipuri scurte, are anumite limitări care trebuie luate în considerare pentru utilizarea practică. Poate lupta cu urmărirea obiectelor prin schimbări semnificative de perspectivă, ocultări lungi sau în scene aglomerate, în special în videoclipuri lungi. Corecțiile manuale cu clicuri interactivi pot ajuta la abordarea acestor probleme.
În medii aglomerate cu obiecte cu aspect similar, SAM 2 ar putea, ocazional, să identifice greșit țintele, dar prompte suplimentare în cadre ulterioare pot rezolva această problemă. Deși SAM 2 poate segmenta multiple obiecte, eficiența sa scade, deoarece prelucrează fiecare obiect separat. Actualizările viitoare ar putea beneficia de integrarea informațiilor contextuale partajate pentru a îmbunătăți performanța.
SAM 2 poate, de asemenea, să omită detalii fine cu obiecte în mișcare rapidă, iar predicțiile pot fi instabile pe cadre. Cu toate acestea, o antrenare suplimentară poate aborda această limitare. Deși generarea automată a anotărilor s-a îmbunătățit, annotatorii umani sunt încă necesari pentru verificarea calității și selectarea cadrului, iar o automatizare suplimentară ar putea îmbunătăți eficiența.
Concluzia
SAM 2 reprezintă un salt semnificativ înainte în segmentarea obiectelor în timp real, atât pentru imagini, cât și pentru videoclipuri, construind pe baza pusă de predecesorul său. Prin îmbunătățirea capacităților și extinderea funcționalității la conținutul video dinamic, SAM 2 promite să transforme o varietate de domenii, de la sănătate și vehicule autonome la media interactivă și retail. Deși există provocări, în special în gestionarea scenelor complexe și aglomerate, natura open-source a SAM 2 încurajează îmbunătățirea și adaptarea continuă. Cu performanța sa puternică și accesibilitate, SAM 2 este pregătit să stimuleze inovația și să extindă posibilitățile în viziunea computațională și dincolo.








