Intelligenza artificiale

Vikrant Tomar, CTO e Fondatore di Fluent.ai – Serie di Interviste

Published January 13, 2021

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Vikrant Tomar, è il CTO e Fondatore di Fluent.ai, un software di comprensione del parlato e di interfaccia utente vocale per i produttori di dispositivi e i fornitori di servizi.

Cosa ti ha inizialmente attirato a studiare la modellazione acustica per il riconoscimento del parlato?

In realtà, essere in grado di parlare con i dispositivi nello stesso modo in cui parliamo con un altro essere umano. Questa visione mi ha sempre affascinato. Ho iniziato a studiare il riconoscimento del parlato durante l’ultimo anno del mio corso di laurea. È anche quando ho iniziato a interessarmi alla ricerca, quindi ho seguito un corso di riconoscimento del parlato e un progetto di ricerca correlato. Sono riuscito a pubblicare un articolo di ricerca alla conferenza InterSpeech, una delle più grandi e più rispettate conferenze di riconoscimento del parlato, grazie a questo lavoro. Tutto ciò mi ha motivato a scegliere la ricerca nel riconoscimento del parlato come focus a lungo termine, quindi il dottorato.

Nel 2015 hai lanciato Fluent.ai, potresti condividere la storia di genesi di questa startup?

Ho sempre avuto una vocazione imprenditoriale in me. Io, insieme a due altri amici, avevo tentato di fondare una società dopo la laurea, ma per alcuni motivi, quel tentativo non è riuscito. Durante il mio dottorato alla McGill, ho tenuto d’occhio la scena startup di Montreal. In quel periodo, ho anche avuto la possibilità di entrare in contatto con persone di TandemLaunch – la fucina di startup dove ho creato Fluent.ai. A quel punto, ero verso la fine del mio dottorato e stavo pensando seriamente di provare di nuovo a fare l’imprenditore. Attraverso le mie esperienze lavorative, la ricerca e l’associazione con altri gruppi di ricerca sul parlato, mi sono reso conto che la maggior parte di queste esperienze si erano concentrate sul fare il riconoscimento del parlato in un modo specifico: andando dal parlato alla trascrizione del testo e poi all’elaborazione del linguaggio naturale. Tuttavia, questo ha lasciato un vuoto nella facilità d’uso. Una grande parte della popolazione non può beneficiare delle soluzioni di riconoscimento del parlato sviluppate in questo modo. La quantità di dati richiesta per tali metodi è così grande che non avrebbe senso finanziario sviluppare modelli separati per lingue con meno parlanti. Inoltre, molti dialetti e lingue non hanno una forma scritta distinta. Anche la mia stessa famiglia non è stata in grado di utilizzare gli strumenti sviluppati da me (loro parlano un dialetto dell’hindi). Considerando tutto ciò, ho iniziato a pensare a modi diversi per creare modelli di parlato, in cui la quantità di dati richiesta fosse minore e/o l’utente finale potesse lui stesso formare o aggiornare i modelli. Ero a conoscenza del lavoro svolto all’Università di KU Leuven (KUL) che poteva soddisfare alcune di queste esigenze. Con parte della tecnologia proveniente da KUL, siamo stati in grado di fare i primi passi verso ciò che Fluent è oggi.

Potresti elaborare sulle soluzioni di comprensione del parlato intuitive di Fluent.ai?

Le soluzioni di riconoscimento del parlato di Fluent.ai sono ispirate a come gli esseri umani acquisiscono e riconoscono le lingue. I sistemi di riconoscimento del parlato convenzionali trascrivono prima l’input del parlato in testo e poi estraggono il significato da quel testo. Non è così che gli esseri umani riconoscono il parlato. Prendi ad esempio i bambini prima che imparino a leggere e scrivere: nonostante non conoscano nulla sulla rappresentazione scritta delle lingue, sono in grado di avere una conversazione parlata con facilità. Allo stesso modo, i modelli basati su reti neurali profonde di Fluent sono in grado di estrarre direttamente il significato dai suoni del parlato senza doverli prima trascrivere in testo. Tecnicamente, si tratta di vera Comprensione del Linguaggio Parlato. Ci sono molti vantaggi in questo approccio. Il riconoscimento del parlato tradizionale è un approccio farraginoso, in cui diversi moduli che sono stati addestrati separatamente sono intrecciati per fornire una risposta finale. Ciò si traduce in una soluzione non ottimale che soffre di variazioni nei risultati per accenti, rumore, condizioni di sfondo, ecc. Il sistema di riconoscimento automatico delle intenzioni (AIR) di Fluent è ottimizzato end-to-end; è interamente un’architettura basata su reti neurali, in cui tutti i moduli sono stati addestrati congiuntamente per fornire la soluzione più ottimale. Inoltre, siamo in grado di rimuovere diversi moduli computazionalmente pesanti comunemente presenti nel sistema di riconoscimento del parlato convenzionale. Ciò ci consente di creare sistemi di riconoscimento del parlato a basso impatto che possono funzionare con solo 40 KB di RAM su un microcontrollore a bassa potenza che funziona a 50 MHz. Infine, i nostri sistemi di comprensione del linguaggio parlato basati su AIR possono sfruttare le somiglianze tra diverse lingue in un modo unico per fornire funzionalità senza precedenti, come la capacità di riconoscere più lingue nello stesso modello.

Quali sono alcune delle sfide dell’IA nel superare il problema del rumore ambientale?

Il rumore è una delle più grandi sfide per il riconoscimento del parlato. Ciò che lo rende un problema veramente impegnativo è che ci sono molti tipi diversi di rumore e influiscono sullo spettro del parlato in modi diversi. A volte il rumore può anche avere un impatto sulla risposta del microfono. In molti casi, non è possibile separare le fonti del parlato dalle fonti del rumore. In alcuni casi, il rumore può mascherare le informazioni disponibili nello spettro del parlato, mentre in altri può rimuovere completamente le informazioni utili. Entrambe le situazioni si traducono in una bassa accuratezza. Mentre è facile rimuovere tipi di rumore consistenti, come il rumore di un ventilatore, alcuni tipi di rumore, come il chiacchiericcio o le persone che parlano in sottofondo o la musica, sono molto difficili da rimuovere perché influiscono sullo spettro del parlato in modi diversi.

Potresti definire cosa è l’Edge AI e come Fluent.ai utilizza questo tipo di AI?

L’Edge AI è un termine ombrello utilizzato per coprire diversi modi in cui le applicazioni di intelligenza artificiale potrebbero essere spostate su dispositivi a bassa potenza. Sempre più questo termine è utilizzato per i casi in cui i dispositivi edge eseguono essi stessi determinati calcoli intelligenti. In Fluent, ci concentriamo sull’portare una comprensione del linguaggio parlato di alta qualità all’edge. Abbiamo sviluppato algoritmi efficienti che consentono ai dispositivi a bassa potenza di riconoscere il parlato di input da soli senza dover inviare i dati a un server cloud per l’elaborazione. I vantaggi sono duplice: in primo luogo, la privacy dell’utente non è compromessa dallo streaming e dall’archiviazione dei suoi dati vocali nel cloud. In secondo luogo, un tale approccio riduce la latenza perché i dati del parlato e la risposta non devono viaggiare tra il server cloud e il dispositivo.

Quali altri tipi di tecnologie di apprendimento automatico sono utilizzate?

Il nostro focus principale è su approcci basati sull’apprendimento profondo per il riconoscimento del parlato. Stiamo utilizzando metodi di apprendimento per rinforzo (RL), ad esempio NASIL[1], per scoprire nuove architetture di modelli di IA precedentemente sconosciute (in un certo senso, l’IA che crea l’IA). E stiamo utilizzando AutoML per regolare i nostri modelli di IA predeterminati per ottenere risultati affidabili per diverse applicazioni, aumentando così l’affidabilità e la riproducibilità. La compressione del modello e altri approcci matematici aiutano ulteriormente a ottimizzare le prestazioni del modello.

Cosa pensi che accadrà nei prossimi 5 anni per entrambi natural language understanding e natural language processing?

Penso che i sistemi evolveranno per fornire interazioni più naturali. Nonostante i progressi degli ultimi anni, la maggior parte dei sistemi attuali può solo rispondere a query semplici o eseguire una ricerca su internet con voce. Vedremo sempre più soluzioni che possono ragionare e rispondere a una query completa per una persona, invece di funzionare solo come un motore di ricerca basato sulla voce.

L’altro aspetto interessante è la privacy. Le soluzioni attuali più popolari sono principalmente dispositivi connessi a internet che trasmettono tutti i dati vocali dell’utente a un server cloud. Tuttavia, la privacy di tali soluzioni sta diventando un problema. Stiamo anche iniziando a vedere le applicazioni dell’interfaccia utente vocale oltre gli elettrodomestici per i consumatori, nello spazio audio professionale, nonché nell’ospitalità e nelle sale conferenze. Un requisito chiave per queste applicazioni è la privacy, quindi le soluzioni attuali connesse non sono sufficienti – quindi vedremo molte più soluzioni di intelligenza artificiale edge o on-device per il linguaggio naturale.

Come ho menzionato in precedenza, le soluzioni di parlato e linguaggio naturale rimangono inaccessibili a una grande parte della popolazione mondiale. Ci sta lavorando molto per creare nuovi tipi di modelli di IA che possano essere addestrati con una piccola quantità di dati, risultando in costi di sviluppo ridotti e consentendo lo sviluppo di modelli in lingue con meno parlanti. Lungo la stessa linea, vedremo soluzioni che possono imparare a riconoscere più lingue nello stesso modello. Nel complesso, vedremo sempre più il dispiegamento di modelli di IA multilingue che possono rispondere a una query dell’utente nella sua lingua madre.

C’è qualcos’altro che ti piacerebbe condividere su Fluent.ai?

La tecnologia del parlato è arrivata molto lontano negli ultimi anni e ha un grande potenziale di crescita sulla strada che si apre davanti. In Fluent.ai, stiamo sempre cercando nuovi casi d’uso della nostra tecnologia esistente, mentre continuiamo a innovare internamente. La pandemia di COVID-19 ha creato una maggiore sensibilità per le aree ad alto contatto, come i pulsanti degli ascensori, i chioschi dei ristoranti e altro, il che ha scatenato una nuova domanda di tecnologia abilitata alla voce. Fluent.ai spera di aiutare a colmare queste lacune, poiché le nostre soluzioni sono multilingue e quindi più inclusive, e funzionano offline, offrendo un ulteriore livello di privacy. Queste funzionalità, come menzionato, saranno probabilmente il futuro della tecnologia del parlato.

Grazie per la grande intervista, i lettori che desiderano saperne di più possono visitare il sito web di Fluent.ai.

[1] https://www.researchgate.net/profile/Farzaneh_Sheikhnezhad_Fard/publication/341083699_Nasil_Neural_Archit

Unite.AI

Vikrant Tomar, CTO e Fondatore di Fluent.ai – Serie di Interviste

You may like