Seguici sui social

La nuova tecnologia di etichettatura automatica di Voxel51 promette di ridurre i costi di annotazione di 100,000 volte

Intelligenza Artificiale

La nuova tecnologia di etichettatura automatica di Voxel51 promette di ridurre i costi di annotazione di 100,000 volte

mm

Un nuovo studio rivoluzionario da una startup di computer vision voxel51 suggerisce che il tradizionale modello di annotazione dei dati stia per essere stravolto. In una ricerca pubblicata oggi, l'azienda segnala che il suo nuovo sistema di etichettatura automatica raggiunge fino al 95% di accuratezza a livello umano, pur essendo 5,000 volte più veloce e fino a 100,000 volte più economico rispetto all'etichettatura manuale.

Lo studio ha confrontato modelli di base come YOLO-World e Grounding DINO con dataset noti, tra cui COCO, LVIS, BDD100K e VOC. Sorprendentemente, in molti scenari reali, i modelli addestrati esclusivamente su etichette generate dall'intelligenza artificiale hanno ottenuto risultati pari, o addirittura migliori, rispetto a quelli addestrati su etichette umane. Per le aziende che sviluppano visione computerizzata sistemi, le implicazioni sono enormi: si potrebbero risparmiare milioni di dollari in costi di annotazione e i cicli di sviluppo dei modelli potrebbero ridursi da settimane a ore.

La nuova era dell'annotazione: dal lavoro manuale alle pipeline basate su modelli

Per decenni, annotazione dei dati ha rappresentato un doloroso collo di bottiglia nello sviluppo dell'intelligenza artificiale. Da ImageNet ai dataset dei veicoli autonomi, i team si sono affidati a vasti eserciti di lavoratori umani per disegnare riquadri di delimitazione e segmentare gli oggetti, uno sforzo costoso e lento.

La logica prevalente era semplice: più dati etichettati dagli esseri umani = IA migliore. Ma la ricerca di Voxel51 capovolge completamente questo presupposto.

Il loro approccio sfrutta modelli di fondazione pre-addestrati, alcuni con colpo zero e le integra in una pipeline che automatizza l'etichettatura di routine, utilizzando al contempo l'apprendimento attivo per segnalare casi incerti o complessi per la revisione umana. Questo metodo riduce drasticamente tempi e costi.

In un test, l'etichettatura di 3.4 milioni di oggetti utilizzando una GPU NVIDIA L40S ha richiesto poco più di un'ora e un costo di 1.18 dollari. Eseguire manualmente lo stesso con AWS SageMaker avrebbe richiesto quasi 7,000 ore e un costo di oltre 124,000 dollari. In casi particolarmente complessi, come l'identificazione di categorie rare nei dataset COCO o LVIS, occasionalmente i modelli con etichettatura automatica sono stati utilizzati. sovraperformato Le loro controparti etichettate dall'uomo. Questo risultato sorprendente potrebbe derivare dai modelli di etichettatura coerenti dei modelli di base e dal loro addestramento su dati Internet su larga scala.

Dentro Voxel51: il team che rimodella i flussi di lavoro dell'intelligenza artificiale visiva

Fondata nel 2016 da Professor Jason Corso e Brian Moore Con sede presso l'Università del Michigan, Voxel51 è nata originariamente come società di consulenza focalizzata sull'analisi video. Corso, veterano della visione artificiale e della robotica, ha pubblicato oltre 150 articoli accademici e contribuisce con un ampio codice open source alla comunità dell'intelligenza artificiale. Moore, ex dottorando di Corso, è amministratore delegato.

La svolta arrivò quando il team riconobbe che la maggior parte dei colli di bottiglia dell'intelligenza artificiale non risiedevano nella progettazione dei modelli, ma nei dati. Questa intuizione li ispirò a creare Cinquantuno, una piattaforma progettata per consentire agli ingegneri di esplorare, curare e ottimizzare i set di dati visivi in ​​modo più efficiente.

Nel corso degli anni, l'azienda ha raccolto oltre $ 45M, Compreso un $ 12.5 milioni di serie A e $ 30M Serie B Guidato da Bessemer Venture Partners, l'adozione è stata estesa anche alle aziende, con clienti importanti come LG Electronics, Bosch, Berkshire Grey, Precision Planting e RIOS che hanno integrato gli strumenti di Voxel51 nei loro flussi di lavoro di intelligenza artificiale in produzione.

Da strumento a piattaforma: il ruolo in espansione di FiftyOne

FiftyOne si è evoluto da un semplice strumento di visualizzazione di dataset a una piattaforma di intelligenza artificiale completa e incentrata sui dati. Supporta un'ampia gamma di formati e schemi di etichettatura (COCO, Pascal VOC, LVIS, BDD100K, Open Images) e si integra perfettamente con framework come TensorFlow e PyTorch.

Più di uno strumento di visualizzazione, FiftyOne consente operazioni avanzate: ricerca di immagini duplicate, identificazione di campioni con etichetta errata, individuazione di valori anomali e misurazione delle modalità di errore del modello. Il suo ecosistema di plugin supporta moduli personalizzati per il riconoscimento ottico dei caratteri, domande e risposte video e analisi basate sull'embedding.

La versione aziendale, FiftyOne Teams, introduce funzionalità collaborative come il controllo delle versioni, i permessi di accesso e l'integrazione con l'archiviazione cloud (ad esempio, S3), oltre a strumenti di annotazione come Labelbox e CVAT. In particolare, Voxel51 include anche in collaborazione con V7 Labs per semplificare il flusso tra la cura del set di dati e l'annotazione manuale.

Ripensare il settore dell'annotazione

La ricerca di Voxel51 sull'etichettatura automatica mette in discussione i presupposti alla base di un settore dell'annotazione che vale quasi un miliardo di dollari. Nei flussi di lavoro tradizionali, ogni immagine deve essere gestita da un essere umano, un processo costoso e spesso ridondante. Voxel1 sostiene che gran parte di questo lavoro può ora essere eliminato.

Con il loro sistema, la maggior parte delle immagini viene etichettata dall'intelligenza artificiale, mentre solo i casi limite vengono inoltrati agli umani. Questa strategia ibrida non solo riduce i costi, ma garantisce anche una migliore qualità complessiva dei dati, poiché il lavoro umano viene riservato alle annotazioni più difficili o preziose.

Questo cambiamento è parallelo alle tendenze più ampie nel campo dell’intelligenza artificiale verso IA incentrata sui dati—una metodologia che si concentra sull'ottimizzazione dei dati di addestramento anziché sulla continua messa a punto delle architetture dei modelli.

Panorama competitivo e accoglienza del settore

Investitori come Bessemer considerano Voxel51 come lo “strato di orchestrazione dei dati” per l’intelligenza artificiale, simile a come DevOps Gli strumenti hanno trasformato lo sviluppo del software. Il loro strumento open source ha ottenuto milioni di download e la loro community include migliaia di sviluppatori e team di apprendimento automatico in tutto il mondo.

Mentre altre startup come Snorkel AI, Roboflow e Activeloop si concentrano anch'esse sui flussi di lavoro basati sui dati, Voxel51 si distingue per la sua ampiezza, la filosofia open source e l'infrastruttura di livello enterprise. Anziché competere con i fornitori di annotazioni, la piattaforma di Voxel51 li completa, rendendo i servizi esistenti più efficienti attraverso una cura selettiva.

Implicazioni future

Le implicazioni a lungo termine sono profonde. Se ampiamente adottato, voxel51La metodologia potrebbe abbassare drasticamente la barriera all'ingresso della visione artificiale, democratizzando il settore per le startup e i ricercatori che non dispongono di ingenti budget per l'etichettatura.

Oltre al risparmio sui costi, questo approccio getta anche le basi per sistemi di apprendimento continuo, dove i modelli in produzione segnalano automaticamente gli errori, che vengono poi esaminati, rietichettati e reinseriti nei dati di addestramento, il tutto all'interno della stessa pipeline orchestrata.

La visione più ampia dell'azienda è in linea con l'evoluzione dell'intelligenza artificiale: non solo modelli più intelligenti, ma anche flussi di lavoro più intelligenti. In questa visione, l'annotazione non è morta, ma non è più dominio del lavoro bruto. È strategica, selettiva e guidata dall'automazione.

Antoine è un leader visionario e socio fondatore di Unite.AI, spinto da una passione incrollabile per la definizione e la promozione del futuro dell'intelligenza artificiale e della robotica. Imprenditore seriale, ritiene che l'intelligenza artificiale sarà dirompente per la società quanto l'elettricità, e spesso viene colto a delirare sul potenziale delle tecnologie dirompenti e dell'AGI.

Come futurista, si dedica a esplorare come queste innovazioni plasmeranno il nostro mondo. Inoltre, è il fondatore di Titoli.io, una piattaforma focalizzata sugli investimenti in tecnologie all'avanguardia che stanno ridefinendo il futuro e rimodellando interi settori.