Connect with us

Jean-Louis Quéguiner, Fondatore e Amministratore Delegato di Gladia – Serie di Interviste

Interviste

Jean-Louis Quéguiner, Fondatore e Amministratore Delegato di Gladia – Serie di Interviste

mm

Jean-Louis Quéguiner è il Fondatore e Amministratore Delegato di Gladia. In precedenza, ha ricoperto il ruolo di Vice Presidente del Gruppo per i Dati, l’Intelligenza Artificiale e il Calcolo Quantistico presso OVHcloud, uno dei principali fornitori di servizi cloud in Europa. Ha conseguito un Master in Intelligenza Artificiale Simbolica presso l’Università del Québec in Canada e Arts et Métiers ParisTech a Parigi. Nel corso della sua carriera, ha ricoperto incarichi significativi in vari settori, tra cui analisi dei dati finanziari, applicazioni di apprendimento automatico per la pubblicità digitale in tempo reale e sviluppo di API di riconoscimento vocale.

Gladia fornisce soluzioni avanzate di trascrizione audio e soluzioni di intelligenza artificiale in tempo reale per un’integrazione senza soluzione di continuità nei prodotti di vari settori, lingue e stack tecnologici. Ottimizzando i modelli di riconoscimento vocale (ASR) e di intelligenza artificiale generativa all’avanguardia, garantisce un’elaborazione del linguaggio e della voce precisa e senza ritardi. La piattaforma di Gladia consente inoltre l’estrazione in tempo reale di informazioni e metadati da chiamate e riunioni, supportando casi d’uso aziendali chiave come l’assistenza alle vendite e il supporto clienti automatizzato.

Cosa ti ha ispirato ad affrontare le sfide della tecnologia di riconoscimento vocale (STT) e quali lacune hai visto nel mercato?

Quando ho fondato Gladia, l’obiettivo iniziale era ampio: un’azienda di intelligenza artificiale che avrebbe reso accessibile la tecnologia complessa. Ma mentre ci addentravamo maggiormente, è diventato chiaro che la tecnologia vocale era l’area più rotta e più critica su cui concentrarsi.

La voce è centrale nella nostra vita quotidiana e la maggior parte della nostra comunicazione avviene attraverso la parola. Eppure, gli strumenti disponibili per i sviluppatori per lavorare con i dati vocali erano inadeguati in termini di velocità, precisione e prezzo, soprattutto tra le lingue.

Volevo risolvere questo problema, scomporre la complessità della tecnologia vocale e riproporla in qualcosa di semplice, efficiente, potente e accessibile. I sviluppatori non dovrebbero preoccuparsi delle complessità dei modelli di intelligenza artificiale o delle sfumature della lunghezza del contesto nel riconoscimento vocale. Il mio obiettivo era creare un’API di riconoscimento vocale di livello aziendale che funzionasse in modo impeccabile, indipendentemente dal modello o dalla tecnologia sottostante: una vera e propria soluzione plug-and-play.

Quali sono alcune delle sfide uniche che hai incontrato mentre costruivi una soluzione di trascrizione per l’uso aziendale?

Quando si tratta di riconoscimento vocale, la velocità e la precisione, i due principali indicatori di prestazione in questo campo, sono inversamente proporzionali per progetto. Ciò significa che migliorare uno comprometterà l’altro, almeno in una certa misura. Il fattore di costo, in larga misura, deriva dalla scelta del fornitore tra velocità e qualità.

Mentre costruivamo Gladia, il nostro obiettivo era trovare il giusto equilibrio tra questi due fattori, assicurandoci che la tecnologia rimanesse accessibile alle startup e alle PMI. Nel processo, abbiamo anche realizzato che i modelli ASR fondamentali come Whisper di OpenAI, con cui abbiamo lavorato a lungo, sono distorti, inclinati fortemente verso l’inglese a causa dei loro dati di formazione, il che lascia molte lingue sottorappresentate.

Quindi, oltre a risolvere il compromesso tra velocità e precisione, è stato importante per noi, in quanto team europeo multilingue, ottimizzare e affinare i nostri modelli core per costruire un’API veramente globale che aiuti le aziende a operare tra le lingue.

Come si differenzia Gladia nel mercato affollato della trascrizione di intelligenza artificiale? Cosa rende il tuo Whisper-Zero ASR unico?

Il nostro nuovo motore in tempo reale (Gladia Real Time) raggiunge un ritardo di industria di 300 ms. Inoltre, è in grado di estrarre informazioni da una chiamata o riunione con le cosiddette funzionalità “audio intelligence” o add-on, come il riconoscimento delle entità nominate (NER) o l’analisi del sentimento.

Per quanto ne sappiamo, pochi concorrenti sono in grado di fornire sia trascrizione che informazioni a un tale ritardo (meno di 1s end-to-end) e farlo in modo accurato in lingue diverse dall’inglese. Il nostro supporto linguistico si estende a oltre 100 lingue oggi.

Abbiamo anche posto un’enfasi speciale nel rendere il prodotto veramente agnostico dello stack. La nostra API è compatibile con tutti gli stack tecnologici esistenti e i protocolli di telefonia, compresi SIP, VoIP, FreeSwitch e Asterisk. I protocolli di telefonia sono particolarmente complessi da integrare, quindi crediamo che questo aspetto del prodotto possa portare un valore tremendo al mercato.

Le allucinazioni nei modelli di intelligenza artificiale sono una preoccupazione significativa, soprattutto nella trascrizione in tempo reale. Puoi spiegare cosa sono le allucinazioni nel contesto della STT e come Gladia affronta questo problema?

Le allucinazioni di solito si verificano quando il modello manca di conoscenza o non ha abbastanza contesto sull’argomento. Sebbene i modelli possano produrre output personalizzati per una richiesta, possono fare riferimento solo alle informazioni esistenti al momento della loro formazione, che potrebbe non essere aggiornata. Il modello creerà risposte coerenti riempiendo i vuoti con informazioni che suonano plausibili ma sono errate.

Mentre le allucinazioni sono diventate note nel contesto dei LLM per primi, si verificano anche con i modelli di riconoscimento vocale, come Whisper ASR, un modello leader nel settore sviluppato da OpenAI. Le allucinazioni di Whisper sono simili a quelle dei LLM a causa di un’architettura simile, quindi è un problema che riguarda i modelli generativi, che possono prevedere le parole che seguono in base al contesto generale. In un certo senso, “inventano” l’output. Questo approccio può essere contrastato con architetture di riconoscimento vocale più tradizionali e basate sull’acustica, che abbinano l’input sonoro all’output in modo più meccanico.

Come risultato, potresti trovare parole in una trascrizione che non sono state effettivamente pronunciate, il che è chiaramente problematico, soprattutto in campi come la medicina, dove un errore di questo tipo può avere gravi conseguenze.

Ci sono diversi metodi per gestire e rilevare le allucinazioni. Un approccio comune consiste nell’utilizzare un sistema di generazione aumentata di recupero (RAG), che combina le capacità generative del modello con un meccanismo di recupero per verificare i fatti. Un altro metodo prevede l’impiego di un approccio “catena di pensiero”, in cui il modello viene guidato attraverso una serie di passaggi o punti di controllo predefiniti per assicurarsi che rimanga su un percorso logico.

Un’altra strategia per rilevare le allucinazioni consiste nell’utilizzare sistemi che valutano la veridicità dell’output del modello durante la formazione. Ci sono benchmark specificamente progettati per valutare le allucinazioni, che coinvolgono il confronto di diverse risposte candidate generate dal modello e la determinazione di quale sia la più precisa.

Noi a Gladia abbiamo sperimentato una combinazione di tecniche durante la costruzione di Whisper-Zero, il nostro ASR proprietario che rimuove virtualmente tutte le allucinazioni. Ha dimostrato risultati eccellenti nella trascrizione asincrona e stiamo attualmente ottimizzandolo per il tempo reale per raggiungere la stessa fedeltà delle informazioni del 99,9%.

La tecnologia STT deve gestire una vasta gamma di complessità come accenti, rumore e conversazioni multilingue. Come affronta Gladia queste sfide per garantire un’elevata precisione?

La rilevazione della lingua nel riconoscimento vocale è un compito estremamente complesso. Ogni speaker ha una firma vocale unica, che chiamiamo caratteristiche. Analizzando lo spettro vocale, gli algoritmi di apprendimento automatico possono eseguire classificazioni, utilizzando i coefficienti cepstrali della frequenza di Mel (MFCC) per estrarre le principali caratteristiche di frequenza.

MFCC è un metodo ispirato alla percezione uditiva umana. Fa parte del campo “psicoacustico”, che si concentra su come percepiamo il suono. Sottolinea le frequenze più basse e utilizza tecniche come la decomposizione di Fourier normalizzata per convertire l’audio in uno spettro di frequenza.

Tuttavia, questo approccio ha una limitazione: si basa puramente sull’acustica. Quindi, se parli inglese con un forte accento, il sistema potrebbe non capire il contenuto, ma invece giudicare in base alla tua prosodia (ritmo, enfasi, intonazione).

È qui che entra in gioco la soluzione innovativa di Gladia. Abbiamo sviluppato un approccio ibrido che combina caratteristiche psicoacustiche con la comprensione del contenuto per la rilevazione dinamica della lingua.

Il nostro sistema non ascolta solo come parli, ma capisce anche cosa stai dicendo. Questo approccio duale consente un efficiente commutazione del codice e non permette che forti accenti vengano mal rappresentati o fraintesi.

La commutazione del codice, che è tra i nostri principali differenziali, è una funzionalità particolarmente importante nel gestire conversazioni multilingue. Gli speaker potrebbero commutare tra le lingue a metà conversazione (o addirittura a metà frase), e la capacità del modello di trascrivere in modo accurato sul volo nonostante il commutamento è critica.

L’API di Gladia è unica nella sua capacità di gestire la commutazione del codice con così tante paia di lingue e con un alto livello di precisione e si esegue anche in ambienti rumorosi, noti per ridurre la qualità della trascrizione.

La trascrizione in tempo reale richiede un ritardo ultra-basso. Come raggiunge la tua API un ritardo inferiore a 300 millisecondi mentre mantiene la precisione?

Mantenere un ritardo inferiore a 300 millisecondi mentre si mantiene un’elevata precisione richiede un approccio multifacético che combina competenza hardware, ottimizzazione degli algoritmi e progettazione architettonica.

L’intelligenza artificiale in tempo reale non è come il calcolo tradizionale: è strettamente legata alla potenza e all’efficienza dei GPGPU. Ho lavorato in questo spazio per quasi un decennio, guidando la divisione di intelligenza artificiale presso OVHCloud (il più grande fornitore di servizi cloud nell’UE), e ho imparato per esperienza che si tratta sempre di trovare il giusto equilibrio: quanta potenza hardware è necessaria, quanto costa e come si adattano gli algoritmi per funzionare in modo impeccabile con quell’hardware.

Le prestazioni in tempo reale dell’intelligenza artificiale derivano dall’allineare efficacemente gli algoritmi con le capacità dell’hardware, assicurandosi che ogni operazione massimizzi il throughput mentre minimizza i ritardi.

Ma non si tratta solo dell’intelligenza artificiale e dell’hardware. L’architettura del sistema gioca un ruolo importante anche, soprattutto la rete, che può realmente impattare sul ritardo. Il nostro CTO, che ha una profonda esperienza nella progettazione di reti a basso ritardo presso Sigfox (un pioniere dell’IoT), ha ottimizzato la nostra configurazione di rete per raschiare via preziosi millisecondi.

Quindi, è davvero una miscela di tutti questi fattori – scelte hardware intelligenti, algoritmi ottimizzati e progettazione della rete – che ci consente di raggiungere costantemente un ritardo inferiore a 300 ms senza compromettere la precisione.

Gladia va oltre la trascrizione con funzionalità come la diarizzazione degli speaker, l’analisi del sentimento e le trascrizioni con timestamp. Quali sono alcune applicazioni innovative che hai visto i tuoi clienti sviluppare utilizzando questi strumenti?

Il riconoscimento vocale sblocca una vasta gamma di applicazioni per piattaforme in vari settori, ed è stato incredibile vedere quante aziende veramente pioniere sono emerse negli ultimi due anni, sfruttando i LLM e la nostra API per costruire prodotti all’avanguardia e competitivi. Ecco alcuni esempi:

  • Appunti intelligenti: Molti clienti stanno costruendo strumenti per professionisti che devono catturare e organizzare rapidamente le informazioni da riunioni di lavoro, lezioni universitarie o consultazioni mediche. Con la diarizzazione degli speaker, la nostra API può identificare chi ha detto cosa, rendendo facile seguire le conversazioni e assegnare elementi di azione. Combinata con le trascrizioni con timestamp, gli utenti possono saltare direttamente a momenti specifici di una registrazione, risparmiando tempo e assicurandosi che nulla si perda nella traduzione.
  • Abilitazione delle vendite: Nel mondo delle vendite, la velocità e le informazioni precise sono tutto. Le squadre stanno utilizzando la nostra funzionalità di analisi del sentimento per ottenere informazioni in tempo reale su come i prospetti rispondono durante le chiamate o le demo. Inoltre, le trascrizioni con timestamp aiutano le squadre a riesaminare parti chiave di una conversazione per raffinare il loro discorso o affrontare le preoccupazioni dei clienti in modo più efficace. Per questo caso d’uso in particolare, il riconoscimento delle entità nominate (NER) è anche fondamentale per identificare i nomi, i dettagli aziendali e altre informazioni che possono essere estratte dalle chiamate di vendita per alimentare il CRM in modo automatico.
  • Assistenza al call center: Le aziende nello spazio del contact center stanno utilizzando la nostra API per fornire assistenza live agli agenti, nonché per segnalare il sentimento del cliente durante le chiamate. La diarizzazione degli speaker assicura che le cose dette vengano assegnate alla persona giusta, mentre le trascrizioni con timestamp consentono ai supervisori di esaminare rapidamente momenti critici o questioni di conformità. Ciò non solo migliora l’esperienza del cliente – con una migliore risoluzione sulle chiamate e un miglior monitoraggio della qualità – ma aumenta anche la produttività e la soddisfazione degli agenti.

Posso discutere il ruolo delle vocabolari personalizzati e del riconoscimento delle entità nel migliorare l’affidabilità della trascrizione per gli utenti aziendali?

Molti settori si basano su terminologia specializzata, nomi di marchi e sfumature linguistiche uniche. L’integrazione del vocabolario personalizzato consente alla soluzione di trascrizione vocale di adattarsi a queste esigenze specifiche, il che è cruciale per catturare le sfumature contestuali e fornire un output che rifletta con precisione le esigenze aziendali. Ad esempio, consente di creare un elenco di parole specifiche del dominio, come nomi di marche, in una lingua specifica.

Perché è utile: adattare la trascrizione alle esigenze specifiche del settore consente di minimizzare gli errori nelle trascrizioni, raggiungendo una migliore esperienza utente. Questa funzionalità è particolarmente critica in campi come la medicina o la finanza.

Il riconoscimento delle entità nominate (NER) estrae e identifica informazioni chiave dai dati audio non strutturati, come nomi di persone, organizzazioni, luoghi e altro. Una sfida comune con i dati non strutturati è che queste informazioni critiche non sono facilmente accessibili: sono sepolte all’interno della trascrizione.

Per risolvere questo, Gladia ha sviluppato un approccio di estrazione dei dati chiave strutturata (KDE). Sfruttando le capacità generative della sua architettura basata su Whisper – simile ai LLM – l’estrazione dei dati chiave di Gladia cattura il contesto per identificare ed estrarre informazioni rilevanti direttamente.

Questo processo può essere ulteriormente migliorato con funzionalità come il vocabolario personalizzato e il NER, consentendo alle aziende di popolare i CRM con dati chiave in modo rapido ed efficiente.

Nella tua opinione, come la trascrizione in tempo reale sta trasformando settori come il supporto clienti, le vendite e la creazione di contenuti?

La trascrizione in tempo reale sta trasformando questi settori in modi profondi, generando incredibili guadagni di produttività, insieme a benefici aziendali tangibili.

Innanzitutto, la trascrizione in tempo reale è un gioco-changer per i team di supporto. L’assistenza in tempo reale è fondamentale per migliorare il tasso di risoluzione grazie a risposte più rapide, agenti più intelligenti e migliori risultati (in termini di NSF, tempi di gestione, ecc.). Man mano che i sistemi di riconoscimento vocale migliorano nel gestire le lingue non inglesi e nell’eseguire la traduzione in tempo reale, i call center possono raggiungere una vera e propria esperienza del cliente globale a margini più bassi.

Nelle vendite, la velocità e le informazioni precise sono tutto. Allo stesso modo, la trascrizione in tempo reale equipaggia gli agenti con le informazioni giuste al momento giusto, consentendo loro di concentrarsi su ciò che conta di più nel chiudere gli affari.

Per i creatori, la trascrizione in tempo reale è forse meno rilevante oggi, ma è ancora piena di potenziale, soprattutto quando si tratta di sottotitoli e traduzioni in tempo reale durante gli eventi multimediali. La maggior parte dei nostri clienti multimediali attuali preferisce ancora la trascrizione asincrona, poiché la velocità è meno critica lì, mentre la precisione è fondamentale per applicazioni come la generazione di sottotitoli e la modifica video con timestamp.

La trascrizione di intelligenza artificiale in tempo reale sembra essere una tendenza in crescita. Dove vedi questa tecnologia diretta nei prossimi 5-10 anni?

Mi sento come se questo fenomeno, che ora chiamiamo intelligenza artificiale in tempo reale, sarà ovunque. In sostanza, ciò a cui ci riferiamo qui è la capacità senza soluzione di continuità delle macchine di interagire con le persone, nel modo in cui gli esseri umani già interagiscono l’uno con l’altro.

E se guardi a qualsiasi film di Hollywood (come Lei) ambientato nel futuro, non vedrai mai nessuno lì che interagisce con sistemi intelligenti tramite una tastiera. Per me, questo serve come l’ultima prova che nell’immaginazione collettiva dell’umanità, la voce sarà sempre il principale modo in cui interagiamo con il mondo intorno a noi.

La voce, come vettore principale per aggregare e condividere la conoscenza umana, fa parte della cultura e della storia umana da molto più tempo della scrittura. Poi, la scrittura ha preso il sopravvento perché ha consentito di preservare la nostra conoscenza in modo più efficace di quanto non facesse affidamento sugli anziani della comunità per essere i custodi delle nostre storie e della nostra saggezza.

I sistemi di intelligenza artificiale generativa, in grado di comprendere il parlato, generare risposte e archiviare le nostre interazioni, hanno portato qualcosa di completamente nuovo nello spazio. È il meglio dei due mondi e il meglio dell’umanità, veramente. Ci dà questo potere unico e questa energia della comunicazione vocale con il beneficio della memoria, che in precedenza solo i media scritti potevano garantire per noi. È per questo che credo che sarà ovunque – è il nostro sogno collettivo finale.

Grazie per la grande intervista, i lettori che desiderano saperne di più possono visitare Gladia.

Antoine è un leader visionario e socio fondatore di Unite.AI, guidato da una passione incrollabile per plasmare e promuovere il futuro dell'AI e della robotica. Un imprenditore seriale, crede che l'AI sarà altrettanto disruptiva per la società quanto l'elettricità, e spesso viene colto a parlare con entusiasmo del potenziale delle tecnologie disruptive e dell'AGI.
Come futurist, è dedicato a esplorare come queste innovazioni plasmeranno il nostro mondo. Inoltre, è il fondatore di Securities.io, una piattaforma focalizzata sugli investimenti in tecnologie all'avanguardia che stanno ridefinendo il futuro e ridisegnando interi settori.