Finanziamenti
Collov Labs raccoglie 23 milioni di dollari nella serie A per scommettere sull’intelligenza artificiale visiva come prossima interfaccia

Collov Labs ha raccolto 23 milioni di dollari nella serie A e ha lanciato un nuovo laboratorio di ricerca finalizzato a migliorare i sistemi di intelligenza artificiale visiva, segnalando un più ampio spostamento nel modo in cui l’intelligenza artificiale potrebbe evolversi oltre l’interazione basata sul testo.
Il round, sostenuto da Brightway Future Capital, Taihill Venture e Mindworks Capital, finanzierà lo sviluppo di sistemi progettati per interpretare immagini e input della fotocamera, con l’obiettivo di abilitare l’intelligenza artificiale a comprendere e agire sul mondo fisico.
Uno spostamento lontano dalle interfacce di chat basate su AI
Gran parte dell’adozione di AI di oggi si è concentrata intorno alle interfacce di chat. Collov Labs sta costruendo intorno a una premessa diversa: che l’input visivo diventerà il modo principale in cui le persone interagiranno con l’AI.
Invece di richiamare sistemi con testo, l’azienda si concentra sull’abilitazione degli utenti a puntare una fotocamera su una scena e far interpretare all’AI il contesto, ragionare su ciò che vede e assistere con azioni nel mondo reale. Ciò riflette una transizione più ampia dell’industria verso l’AI multimodale, in cui i sistemi combinano visione, linguaggio e ragionamento in un’esperienza unificata.
L’idea non è del tutto nuova, ma i recenti progressi nel calcolo, nei modelli e nell’elaborazione sul dispositivo stanno rendendo sempre più pratico.
Costruire verso l’interazione con l’AI nel mondo reale
Collov Labs sta sviluppando sistemi che combinano modelli di diffusione, ragionamento spaziale e flussi di lavoro agente. L’obiettivo è superare il riconoscimento di immagini statiche verso sistemi che possano comprendere le relazioni all’interno di una scena e eseguire azioni multi-step.
Questa sezione si allinea con una crescente spinta verso sistemi di AI che interagiscono con ambienti fisici, in particolare poiché l’hardware evolve per supportare l’elaborazione in tempo reale e il contesto persistente.
La storia dell’azienda riflette questo focus. Il suo team ha esperienza in AI multimodale, sistemi di raccomandazione su larga scala e apprendimento automatico applicato sia in ambito accademico che industriale.
Dagli strumenti di design a un livello di AI più ampio
I prodotti esistenti di Collov, tra cui i suoi strumenti di design alimentati da AI, forniscono uno sguardo su come questi sistemi funzionano nella pratica. L’azienda ha inizialmente guadagnato trazione in aree come il design di interni e la generazione di contenuti visivi, dove l’AI può interpretare layout spaziali e generare output realistici.
Le iterazioni precedenti dell’azienda si sono concentrate su piattaforme di design e strumenti di automazione guidati da AI, un approccio che ha già visto una trazione commerciale in casi d’uso come il settore immobiliare, retail e e-commerce.
Questi prodotti ora agiscono come un ciclo di feedback, fornendo dati del mondo reale che aiutano a migliorare i modelli dell’azienda e raffinare la comprensione degli ambienti visivi.
Perché l’AI visiva potrebbe espandere l’adozione
Uno degli assunti di base alla strategia di Collov Labs è che le interfacce basate su testo hanno un limite di portata. Sebbene i chatbot abbiano guidato la consapevolezza, la maggior parte della popolazione globale non ha ancora interagito in modo significativo con gli strumenti di AI.
Le interfacce visive, al contrario, sono intrinsecamente più intuitive. Lo spostamento specchia transizioni precedenti nel calcolo, dove le interfacce grafiche hanno reso i sistemi accessibili a un pubblico più ampio oltre gli utenti tecnici.
Se questo approccio avrà successo, potrebbe abbassare la barriera all’ingresso per l’adozione di AI e espandere il suo utilizzo attraverso settori in cui il contesto visivo è essenziale, tra cui retail, design, logistica e operazioni sul campo.
L’importanza dell’hardware e dell’AI sul dispositivo
I progressi nell’hardware sono un fattore chiave che consente la crescita dell’AI visiva. Man mano che le capacità di elaborazione migliorano su smartphone, dispositivi indossabili e chip specializzati, più del lavoro necessario per interpretare immagini e video può avvenire localmente in tempo reale. Ciò riduce la latenza e consente ai sistemi di rispondere istantaneamente a ciò che un utente sta vedendo, anziché affidarsi interamente all’elaborazione basata su cloud.
Questo spostamento cambia anche il modo in cui l’AI viene consegnata. Invece di esistere principalmente come applicazioni autonome, l’intelligenza visiva può diventare incorporata all’interno dei dispositivi stessi, operando continuamente in background. Ciò apre la porta a interazioni più consapevoli del contesto, ma solleva anche preoccupazioni pratiche sull’accuratezza, l’affidabilità e il comportamento di questi sistemi in ambienti del mondo reale imprevedibili.
Implicazioni più ampie per l’interazione con l’AI
Lo spostamento verso l’AI visiva suggerisce un graduale spostamento nell’interazione uomo-macchina. I sistemi che possono interpretare scene e relazioni spaziali possono ridurre la necessità di input strutturati, rendendo l’AI più accessibile agli utenti che sono meno a loro agio con gli strumenti basati su testo.
Allo stesso tempo, la complessità degli ambienti del mondo reale introduce nuove sfide. L’errata interpretazione di una scena o la mancata considerazione di un contesto chiave possono portare a output errati, e le conseguenze di questi errori diventano più significative man mano che l’AI si avvicina alla presa di decisioni.
Invece di sostituire le interfacce esistenti, l’AI visiva è più probabile che evolva parallelamente a esse, aggiungendo un altro livello di interazione. Nel tempo, ciò potrebbe portare a un’esperienza più integrata in cui l’AI risponde al contesto tanto quanto risponde a istruzioni esplicite.










