Interviste

Tomer Aharoni, CEO e Co-Fondatore di Nagish – Serie di Interviste

mm

Tomer Aharoni, CEO e Co-Fondatore di Nagish, unisce una solida base tecnica grazie al suo lavoro come ingegnere software a Bloomberg, alla ricerca su NLP e IoT alla Columbia University e alle precedenti esperienze nel campo dell’intelligence tecnologica all’interno delle Forze di Difesa israeliane, tutto guidato dalla sua passione per l’accessibilità e l’intersezione tra tecnologia e comunicazione.

Nagish è una piattaforma di comunicazione alimentata da intelligenza artificiale progettata per rendere le chiamate telefoniche completamente accessibili alle persone sorde o ipoacusiche. L’app fornisce sottotitoli in tempo reale e funzionalità di testo-vocale mentre consente agli utenti di mantenere il proprio numero di telefono, garantire la completa privacy e gestire le conversazioni attraverso funzionalità come dizionari personalizzati, trascrizioni salvate e integrazione senza soluzione di continuità con i dispositivi.

Qual è stato il momento o l’intuizione che ti ha portato a canalizzare quell’esperienza nella creazione di Nagish?

Durante i miei studi universitari alla Columbia, un giorno ricevetti una telefonata mentre ero in classe. Non potevo rispondere perché avrei interrotto l’intera lezione, e questo mi fece pensare a come si possa effettuare una telefonata se non si può sentire o parlare? Questo pensiero mi portò a una domanda più ampia: come le persone sorde o ipoacusiche comunicano al telefono?

Quello era il 2019, e noi (Alon Ezer, il mio co-fondatore, e io) scoprimmo che la comunità sorda faceva affidamento in larga misura su interpreti e assistenti di sottotitolazione. Pensammo che fosse assurdo, quindi iniziammo a contattare persone della comunità sorda locale, e ciò che sentimmo fu veramente sorprendente per noi. “Riattacco quando qualcuno mi chiama”, “Non uso il telefono”, o “Chiedo a mio fratello di chiamare per me”, furono solo alcune delle risposte che ricevemmo quando chiedemmo alle persone come usavano il telefono.

Più tardi, quella estate, ho fatto un tirocinio come ingegnere software a Bloomberg. Nel mio team, c’era un’altra tirocinante che era sorda. Ogni volta che volevo incontrarla, dovevo coordinare gli orari con lei e due interpreti. Il fatto di poter “saltare su una rapida chiamata per risolvere questo” era semplicemente impossibile. Dopo aver parlato con il reparto risorse umane, scoprii che trovare quei due interpreti che conoscessero il gergo tecnico era quasi impossibile e che li utilizzavamo ogni volta che erano disponibili, ma non erano disponibili full-time.

Quanto più imparavamo, diventava chiaro che questi non erano inconvenienti isolati, ma parte di un modello molto più ampio. Anche oggi, con i progressi che hanno migliorato l’accessibilità, ci sono ancora molte sfide e aree che devono essere affrontate. A Nagish, abbiamo recentemente condotto un sondaggio e pubblicato un rapporto, L’impatto della tecnologia della comunicazione nel dare potere alle persone sorde o ipoacusiche, che ha rilevato che il 65% degli individui sordi ha affermato di aver bisogno di assistenza da una persona che sente almeno una volta a settimana per comunicare efficacemente. Quella dipendenza crea barriere reali in ambienti professionali, riflesse nel fatto che il 62% dei rispondenti sordi ha affermato che le sfide di comunicazione hanno influenzato le loro decisioni di carriera e limitato la loro capacità di perseguire o avanzare in determinati ruoli.

Queste esperienze, e le mie crescenti connessioni con individui sordi, mi hanno portato a costruire la prima versione di Nagish. Abbiamo una convinzione che non è cambiata: la comunicazione dovrebbe essere accessibile e privata.

Alon e io abbiamo costruito un prototipo, e la risposta è stata incredibile. Ci siamo resi conto di quanto potesse essere trasformativo Nagish. Poi è arrivato il COVID, e la necessità è esplosa mentre il mondo è diventato remoto, e la mancanza di accessibilità nella comunicazione è diventata realmente evidente.

Puoi condividere cosa sono stati i primi giorni di Nagish e quali sfide hai affrontato nell’unire gli obiettivi di accessibilità con la tecnologia AI all’avanguardia?

I primi giorni di Nagish sono stati durante la pandemia, quindi non c’era molto altro che stesse accadendo nelle nostre vite oltre al lavoro. Alon e io vivevamo a pochi isolati di distanza l’uno dall’altro e avevamo molto tempo per brainstorming, prototipazione e implementazione delle tecnologie più recenti. Lavoravamo fuori dai nostri appartamenti per 12 ore al giorno per mesi.

Avere tutto questo tempo a nostra disposizione ci ha permesso di trascorrere molto tempo a parlare con i nostri utenti e a capire le loro esigenze. Non volevamo fare supposizioni. A quel punto, non avevamo ancora intenzione di farne un’azienda. Ciò che ci ha dato la spinta è stato ascoltare gli utenti che parlavano delle loro lotte e sapere che avevamo la possibilità di risolverle con la tecnologia.

Come la tecnologia AI di Nagish collega la comunicazione tra individui sordi o ipoacusiche e il mondo che sente in modi che gli strumenti esistenti non possono?

Nagish utilizza l’AI per colmare le lacune di comunicazione. I nostri motori trasformano il parlato in testo, il testo di nuovo in parlato e la lingua dei segni in testo (e viceversa) in tempo reale. Ciò significa che un individuo sordo o ipoacusico può semplicemente vedere cosa viene detto in una chiamata e rispondere digitando o parlando, mentre la persona che sente dall’altra parte sperimenta solo una chiamata telefonica standard. Prima che questo tipo di AI esistesse, le persone dovevano fare affidamento su servizi di relay gestiti da esseri umani, dove una terza persona sedeva in linea e faceva tutta la trascrizione.

Con Nagish, non c’è un operatore di relay, non c’è interprete da pianificare e non c’è attesa per qualcun altro che sia disponibile. L’app riporta immediatezza, privacy e indipendenza nelle chiamate telefoniche, qualcosa che i servizi di relay tradizionali non possono offrire.

Dal momento che Nagish è alimentato da AI, può scalare a ogni tipo di chiamata: riunioni di lavoro, controlli familiari, emergenze e chiamate di servizio clienti. L’app è progettata per integrarsi facilmente nella vita quotidiana: gli utenti possono mantenere il proprio numero, ottenere sottotitoli in tempo reale e utilizzare la stessa app su chiamate telefoniche e conversazioni in persona. L’intera esperienza è progettata per ridurre l’attrito e far sentire la comunicazione il più naturale e senza soluzione di continuità possibile.

In che modo la tua piattaforma va oltre la semplice trascrizione o sottotitolazione per rendere le interazioni più naturali e inclusive?

Sappiamo che il linguaggio non è solo parole, ma anche cultura, identità e sfumature. Ciò è particolarmente vero per le lingue dei segni, che si basano sull’espressione facciale, sull’emozione e sulla variazione regionale. Per rendere le interazioni più naturali che meccaniche, collaboriamo direttamente con linguisti sordi e esperti di lingua dei segni. Ci aiutano a plasmare come il nostro AI apprende e si comporta, in modo che la tecnologia sia costruita con la comunità, non solo addestrata sui loro dati.

Gli strumenti di trascrizione standard spesso si fermano a “ecco le parole che sono state dette”. Il nostro obiettivo è supportare una conversazione reale. Stiamo implementando agenti AI che possono fornire contesto e gestire il flusso della chiamata oltre a fornire semplicemente sottotitoli o leggere il testo a voce alta. Inoltre, Nagish offre sottotitoli in tempo reale ottimizzati per il flusso conversazionale, con funzionalità come caratteri regolabili, filtro anti-spam, trascrizione della segreteria telefonica e la possibilità di salvare e rivedere le trascrizioni sul proprio dispositivo quando si sceglie di farlo. Tutto ciò crea un’esperienza equivalente a quella che le persone che sentono hanno nelle chiamate telefoniche.

Qual è il ruolo dell’elaborazione del linguaggio naturale nel garantire che la tua piattaforma catturi non solo le parole, ma anche l’intento e il tono?

L’elaborazione del linguaggio naturale e la comprensione del linguaggio naturale sono al cuore di come Nagish cattura non solo ciò che qualcuno dice, ma anche cosa significa. Il parlato è pieno di indizi che aggiungono contesto, come il tono, l’enfasi e altro, e i nostri modelli NLP sono progettati per cogliere quegli strati in modo che gli utenti ottengano più di una semplice trascrizione. L’obiettivo è rendere i sottotitoli il più possibile simili a una conversazione naturale.

Perché Nagish è costruito per situazioni del mondo reale, come chiamate mediche, riunioni di lavoro ed emergenze, i nostri modelli sono addestrati a gestire il parlato veloce, voci sovrapposte e sfumature emotive. La consapevolezza del contesto è un grande motivo per cui spesso superiamo sia i trascrittori umani che gli altri strumenti AI. Il sistema non si limita a indovinare le parole; utilizza il flusso della conversazione per comprendere l’intento.

Come Nagish aiuta gli datori di lavoro a costruire ambienti di lavoro più inclusivi, affrontando le barriere finanziarie e logistiche che hanno a lungo limitato l’accessibilità?

A Nagish, stiamo aiutando gli datori di lavoro a costruire ambienti di lavoro più inclusivi, rimuovendo le barriere finanziarie e logistiche che hanno reso l’accessibilità difficile da scalare. Tradizionalmente, creare un ambiente di lavoro accessibile ha significato fare affidamento su interpreti pianificati, che sono essenziali ma non sempre pratici per la comunicazione quotidiana, come le chiamate rapide, le riunioni improvvisate o i compiti sensibili al tempo. Queste limitazioni creano ritardi, aggiungono costi e possono escludere involontariamente i dipendenti sordi o ipoacusiche dal flusso di lavoro.

Nagish sta lavorando per cambiare quella dinamica, dando ai dipendenti la capacità di comunicare in modo indipendente e su richiesta. Quando le aziende rimuovono quelle barriere, le persone possono partecipare appieno, portando a squadre più forti, una migliore rotazione e un ambiente di lavoro più equo.

Secondo un recente sondaggio che abbiamo condotto, più del 60% dei rispondenti sordi o ipoacusiche ha affermato che le barriere di comunicazione hanno influenzato le loro decisioni di carriera e la crescita professionale. È una sfida seria che, nonostante tutti i progressi fatti negli ultimi anni, mostra che c’è ancora molto lavoro da fare.

Abilitiamo gli datori di lavoro a passare da accomodamenti reattivi a un’inclusione proattiva, creando ambienti di lavoro in cui ogni dipendente possa contribuire in modo indipendente e con fiducia.

Qual è il tipo di feedback che hai ricevuto dagli utenti sordi o ipoacusiche e come ha influenzato l’evoluzione del prodotto?

Abbiamo costruito Nagish con la comunità sorda fin dal primo giorno, e da allora, abbiamo ricevuto un mix di entusiasmo, curiosità e, in rari casi, un po’ di esitazione, che è esattamente come dovrebbe essere. La comunità sorda è molto consapevole e curiosa nei confronti della nuova tecnologia, e con buona ragione. Hanno sentito così tante promesse esagerate in passato, e stiamo cercando di evitare questo. Stiamo dando priorità al progresso rispetto alla perfezione, il che richiede tempo – ma il nostro obiettivo finale è la perfezione.

Questa mentalità orientata alla comunità è rafforzata da ciò che abbiamo appreso nel nostro recente rapporto. Dopo aver adottato la tecnologia assistiva, gli utenti hanno mostrato un aumento significativo dell’indipendenza quotidiana: il numero di persone che potevano comunicare in modo indipendente è aumentato dal 37% al 60% per gli utenti sordi, e dal 32,9% al 63% per gli utenti ipoacusiche. Quel cambiamento rispecchia il feedback che riceviamo ogni giorno: le persone vogliono strumenti che rendano la comunicazione più facile, più coerente e disponibile nei momenti in cui gli interpreti non sono accessibili o quando preferiscono la privacy.

Quando si tratta della nostra ricerca per creare migliori tecnologie di interpretazione della lingua dei segni, il nostro obiettivo non è quello di sostituire gli interpreti umani o i metodi di comunicazione esistenti, ma di aggiungere un’altra opzione, uno strumento che renda l’accessibilità più coerente e disponibile ovunque, in qualsiasi momento. Il feedback degli utenti ha rafforzato quanto sia importante un’“altra opzione”, specialmente nei momenti in cui un interprete non è disponibile o quando qualcuno semplicemente desidera la privacy e l’indipendenza. Per molti, crea situazioni in cui la comunicazione altrimenti sarebbe sembrata scomoda, ritardata o fuori portata.

Stiamo adottando un approccio orientato alla comunità per assicurarci che la tecnologia si senta autentica, precisa e rispettosa. Finché continuiamo a costruire con gli utenti della lingua dei segni, crediamo che questo sarà percepito come un passo avanti empoderante.

La privacy è una preoccupazione chiave nella tecnologia dell’accessibilità — come Nagish gestisce le conversazioni sensibili e mantiene la fiducia degli utenti?

La privacy è fondamentale per la missione di Nagish di dare potere agli utenti sordi o ipoacusiche. La prima cosa da menzionare è che con Nagish, si può già eliminare la necessità di un trascrittore dal vivo, quindi fin dall’inizio c’è già un senso di privacy che non era possibile prima.

Sul lato tecnico, Nagish è progettato per essere privato. Non registriamo le chiamate e non archiviamo le trascrizioni delle chiamate sui nostri server oltre la durata di una chiamata. Non utilizziamo anche i dati delle chiamate per scopi di formazione. Quando gli utenti scelgono di salvare le trascrizioni, vengono archiviate localmente sul dispositivo dell’utente piuttosto che in un cloud condiviso. Funzionalità come la sottotitolazione sicura end-to-end e l’archiviazione locale delle trascrizioni sono lì specificamente per proteggere conversazioni altamente sensibili — sia che si tratti di salute, occupazione o relazioni personali.

Come vedi l’AI che ridisegna l’accessibilità nel prossimo decennio e quali lacune restano ancora da colmare per la tecnologia?

Uno dei più grandi problemi dell’accessibilità digitale è la mancanza di educazione e osservabilità: gli ingegneri non implementano il testo alternativo, i designer scelgono colori inaccessibili perché sembrano buoni, e i responsabili del prodotto prendono decisioni di prodotto per i KPI.

Man mano che l’AI diventa più coinvolto in ogni aspetto dello sviluppo del prodotto, dalla progettazione all’ingegneria, alla scrittura, stiamo vedendo un approccio proattivo all’accessibilità. L’AI potrebbe cambiare l’accessibilità da qualcosa di reattivo e “applicato” a qualcosa di proattivo e ambientale. Vedremo anche una nuova ondata di strumenti che aumenteranno la comunicazione in vari ambienti – non solo chiamate, ma anche ambienti di lavoro, aule, trasporti e servizi pubblici – in modo che le persone con disabilità, e le persone sorde o ipoacusiche in particolare, non debbano costantemente richiedere accomodamenti; saranno lì per default.

Come vedi l’evoluzione della collaborazione tra interpreti umani e AI — uno sostituirà l’altro, o si rafforzeranno a vicenda?

Gli interpreti della lingua dei segni svolgono un lavoro incredibile. Sono essenziali per la comunità, l’accessibilità e la comunicazione. Ma la realtà è che semplicemente non ce ne sono abbastanza. Negli Stati Uniti, ad esempio, ci sono oltre 500.000 persone che utilizzano la lingua dei segni americana come lingua principale, e solo circa 10.000 interpreti certificati. Ciò significa che un numero enorme di situazioni – dalle visite mediche, alle riunioni genitori-insegnanti, ai colloqui di lavoro e altro ancora – spesso mancano di comunicazione accessibile.

Anche quando gli interpreti sono disponibili, ci sono sfide legate alla pianificazione, al costo e alla geografia. Qualcuno che vive in un’area rurale avrebbe molte più difficoltà a ottenere un interprete, e quel ritardo può avere conseguenze reali, specialmente in ambienti sanitari o di emergenza.

L’AI può aiutare a colmare quella lacuna. Ciò che stiamo costruendo non è destinato a sostituire gli interpreti, ma a complementare il loro lavoro e rendere l’accessibilità più scalabile. Pensaci come a uno strumento che interviene quando un interprete umano non è disponibile.

Google Translate non ha sostituito i traduttori professionisti, ma ha reso possibile colmare le lacune di comunicazione nella vita quotidiana.

Con gli avanzamenti nella visione computerizzata e nell’elaborazione del linguaggio naturale, l’AI tiene la promessa di poter iniziare a interpretare la lingua dei segni in tempo reale. Ciò significa che più persone possono comunicare istantaneamente, che si tratti di una videochiamata, di un chiosco pubblico o di un servizio di emergenza.

Grazie per la grande intervista, i lettori che desiderano saperne di più possono visitare Nagish.

Antoine è un leader visionario e socio fondatore di Unite.AI, guidato da una passione incrollabile per plasmare e promuovere il futuro dell'AI e della robotica. Un imprenditore seriale, crede che l'AI sarà altrettanto disruptiva per la società quanto l'elettricità, e spesso viene colto a parlare con entusiasmo del potenziale delle tecnologie disruptive e dell'AGI.
Come futurist, è dedicato a esplorare come queste innovazioni plasmeranno il nostro mondo. Inoltre, è il fondatore di Securities.io, una piattaforma focalizzata sugli investimenti in tecnologie all'avanguardia che stanno ridefinendo il futuro e ridisegnando interi settori.