Interviews

Tomer Aharoni, CEO und Mitgründer von Nagish – Interview-Serie

mm

Tomer Aharoni, CEO und Mitgründer von Nagish, bringt eine starke technische Grundlage aus seiner Arbeit als Software-Entwickler bei Bloomberg, Forschung in NLP und IoT an der Columbia University und frühere Erfahrungen in Technologie-Intelligence-Rollen innerhalb der Israel Defense Forces, all dies getrieben von seiner Leidenschaft für Barrierefreiheit und die Schnittstelle zwischen Technologie und Kommunikation.

Nagish ist eine künstliche Intelligenz-basierte Kommunikationsplattform, die darauf ausgelegt ist, Telefonanrufe für Menschen, die taub oder schwerhörig sind, vollständig zugänglich zu machen. Die App bietet Echtzeit-Untertitelung und Text-to-Speech-Funktionen, während Benutzer ihre bestehende Telefonnummer beibehalten, vollständige Privatsphäre gewährleisten und Gespräche über Funktionen wie personalisierte Wörterbücher, gespeicherte Transkripte und nahtlose Geräteintegration verwalten können.

Sie haben bei Bloomberg gearbeitet und NLP-Forschung an der Columbia University durchgeführt, was hat Sie dazu veranlasst, diese Erfahrungen in die Schaffung von Nagish zu investieren?

Während meines Bachelor-Studiums an der Columbia saß ich eines Tages im Unterricht, als ich einen Anruf erhielt. Ich konnte nicht rangehen, da dies den gesamten Unterricht unterbrochen hätte, und das brachte mich dazu, über die Frage nachzudenken, wie man ein Telefonat führen kann, wenn man nicht hören oder sprechen kann? Diese Überlegung führte zu einer größeren Frage: Wie kommunizieren taube und schwerhörige Menschen am Telefon?

Das war 2019, und wir (Alon Ezer, mein Mitgründer, und ich) entdeckten, dass die taube Gemeinschaft stark auf Dolmetscher und Untertitelungsassistenten angewiesen war. Wir fanden es verrückt, also begannen wir, mit Leuten aus der lokalen tauben Gemeinschaft in Kontakt zu treten, und was wir hörten, war wirklich überraschend für uns. “Ich lege auf, wenn jemand anruft”, “Ich benutze das Telefon nicht”, oder “Ich bitte meinen Bruder, für mich anzurufen”, waren nur einige der Antworten, die wir erhielten, als wir fragten, wie Menschen das Telefon benutzen.

Später in diesem Sommer absolvierte ich ein Praktikum als Software-Entwickler bei Bloomberg. In meinem Team hatten wir einen anderen Praktikanten, der taub war. Jedes Mal, wenn ich mit ihm sprechen wollte, musste ich Termine mit ihm und zwei Dolmetschern abstimmen. Das spontane “Lass uns schnell telefonieren, um das zu klären” war einfach unmöglich. Nachdem ich mit der Personalabteilung darüber gesprochen hatte, erfuhr ich, dass es fast unmöglich war, zwei Dolmetscher zu finden, die mit technischen Fachbegriffen vertraut waren, und dass wir sie benutzten, wenn sie verfügbar waren, aber sie standen nicht vollzeit zur Verfügung.

Je mehr wir lernten, desto klarer wurde, dass diese nicht isolierte Unannehmlichkeiten, sondern Teil eines viel größeren Musters waren. Selbst heute, mit den Fortschritten, die die Barrierefreiheit verbessert haben, gibt es noch viele Herausforderungen und Bereiche, die angegangen werden müssen. Bei Nagish haben wir kürzlich eine Umfrage durchgeführt und einen Bericht veröffentlicht, Die Auswirkungen der Kommunikationstechnologie auf die Ermächtigung von Tauben und Schwerhörigen, der feststellte, dass 65 % der Tauben angaben, dass sie mindestens einmal pro Woche die Hilfe einer hörenden Person benötigen, um effektiv zu kommunizieren. Diese Abhängigkeit schafft echte Barrieren in beruflichen Umgebungen, die sich in der Tatsache widerspiegeln, dass 62 % der Tauben Befragten angaben, dass Kommunikationsherausforderungen ihre Karriereentscheidungen und ihre Fähigkeit, bestimmte Rollen zu verfolgen oder voranzukommen, beeinflusst haben.

Diese Erfahrungen und meine wachsenden Verbindungen zu tauben Personen führten mich dazu, die erste Version von Nagish zu entwickeln. Wir haben eine einzige Überzeugung, die sich nicht geändert hat – Kommunikation sollte zugänglich und privat sein.

Alon und ich bauten ein Prototyp und die Reaktion war unglaublich. Wir erkannten, wie lebensverändernd Nagish sein konnte. Dann kam COVID und der Bedarf explodierte, als die Welt remote wurde und der Mangel an Barrierefreiheit in der Kommunikation wirklich offensichtlich wurde.

Können Sie uns von den frühen Tagen von Nagish erzählen und welche Herausforderungen Sie bei der Verbindung von Barrierefreiheitszielen mit cutting-edge-KI-Technologie erlebt haben?

Die frühen Tage von Nagish waren während der Pandemie, also gab es nicht viel, was in unserem Leben passierte, außer Arbeit. Alon und ich wohnten um die Ecke voneinander und hatten viel Zeit, um zu brainstormen, Prototypen zu erstellen und die neuesten Technologien umzusetzen. Wir arbeiteten aus unseren Wohnungen für 12+ Stunden am Tag für Monate.

Diese Menge an Zeit ließ uns viel Zeit, um mit unseren Nutzern zu sprechen und ihre Bedürfnisse zu verstehen. Wir wollten keine Annahmen treffen. Zu diesem Zeitpunkt hatten wir noch keine Absicht, ein Unternehmen zu gründen. Was uns den Antrieb gab, war das Hören von Nutzern über ihre Schwierigkeiten und das Wissen, dass wir eine Chance hatten, sie mit Technologie zu lösen.

Wie funktioniert Nagishs KI-Technologie, um die Kommunikation zwischen tauben oder schwerhörigen Personen und der hörenden Welt in Weise zu überbrücken, die bestehende Tools nicht können?

Nagish verwendet KI, um Kommunikationslücken zu überbrücken. Unsere Motoren wandeln Sprache in Text, Text zurück in Sprache und Gebärdensprache in Text (und umgekehrt) in Echtzeit um. Das bedeutet, dass eine taube oder schwerhörige Person einfach sehen kann, was auf einem Anruf gesagt wird, und antworten kann, indem sie tippt oder spricht, während die hörende Person am anderen Ende einfach ein Standard-Telefonat erlebt. Bevor diese Art von KI existierte, mussten Menschen auf menschliche Relais-Dienste angewiesen sein, bei denen eine dritte Person auf der Leitung saß und alles transkribierte.

Bei Nagish gibt es keinen Relais-Operator, keinen Dolmetscher, den man einplanen muss, und keine Wartezeit auf jemanden, der verfügbar ist. Die App bringt Unmittelbarkeit, Privatsphäre und Unabhängigkeit zurück in Telefonate, etwas, das traditionelle Relais-Dienste einfach nicht bieten können.

Da Nagish KI-basiert ist, kann es auf jeden Anruf skaliert werden: Arbeitstreffen, Familiencheck-ins, Notfälle und Kundenservice-Anrufe. Die App ist darauf ausgelegt, sich leicht in das normale Leben zu integrieren: Benutzer können ihre eigene Nummer behalten, Echtzeit-Untertitelungen erhalten und die gleiche App für Telefonate und Gespräche im persönlichen Umfeld verwenden. Die gesamte Erfahrung ist darauf ausgelegt, Reibung zu reduzieren und Kommunikation so natürlich und nahtlos wie möglich zu machen.

Wie geht Ihre Plattform über Standard-Transkription oder Untertitelung hinaus, um Interaktionen natürlicher und inklusiver zu machen?

Wir wissen, dass Sprache nicht nur Wörter ist, sondern auch Kultur, Identität und Nuancen. Das ist besonders bei Gebärdensprachen der Fall, die auf Gesichtsausdruck, Emotion und regionale Variation angewiesen sind. Um Interaktionen natürlich und nicht mechanisch zu machen, arbeiten wir direkt mit tauben Linguisten und Gebärdensprach-Experten zusammen. Sie helfen, wie unsere KI lernt und sich verhält, so dass die Technologie mit der Gemeinschaft und nicht nur auf ihren Daten trainiert wird.

Standard-Transkriptions-Tools hören oft bei “hier sind die Wörter, die gesagt wurden” auf. Unser Ziel ist es, eine tatsächliche Konversation zu unterstützen. Wir implementieren KI-Agenten, die Kontext liefern und den Fluss des Anrufs über die bloße Bereitstellung von Untertitelungen oder Text-zu-Sprache hinaus verwalten können. Darüber hinaus bietet Nagish Echtzeit-Untertitelungen, die für den Konversationsfluss optimiert sind, mit Funktionen wie anpassbaren Schriftarten, Spam-Filterung, Voicemail-Transkription und der Möglichkeit, Transkripte auf Ihrem Gerät zu speichern und zu überprüfen, wenn Sie dies wünschen. All dies schafft eine äquivalente Erfahrung zu der, die hörende Menschen in Telefonaten haben.

Welche Rolle spielt die natürliche Sprachverarbeitung bei der Gewährleistung, dass Ihre Plattform nicht nur Wörter, sondern auch Absicht und Ton erfassen kann?

Natürliche Sprachverarbeitung und natürliche Sprachverständnis sind der Kern dessen, wie Nagish nicht nur erfassen kann, was jemand sagt, sondern auch, was er meint. Sprache ist voller Hinweise, die Kontext hinzufügen, wie Ton, Betonung und mehr, und unsere NLP-Modelle sind darauf ausgelegt, diese Schichten zu erfassen, so dass Benutzer mehr als eine grundlegende Transkription erhalten. Das Ziel ist es, die Untertitelungen so natürlich wie möglich zu machen.

Da Nagish für reale Situationen wie medizinische Anrufe, Arbeitstreffen und sogar Notfälle entwickelt wurde, sind unsere Modelle darauf trainiert, schnelle Sprache, überlappende Stimmen und emotionale Nuancen zu bewältigen. Kontextbewusstsein ist ein großer Grund, warum wir oft sowohl menschliche Transkribenten als auch andere KI-Tools überbieten. Das System versucht nicht nur, Wörter zu erraten; es verwendet den Fluss der Konversation, um die Absicht zu verstehen.

Wie hilft Nagish Arbeitgebern, inklusivere Arbeitsplätze aufzubauen, während es die finanziellen und logistischen Barrieren anspricht, die die Barrierefreiheit bisher begrenzt haben?

Bei Nagish helfen wir Arbeitgebern, inklusivere Arbeitsplätze aufzubauen, indem wir die finanziellen und logistischen Barrieren beseitigen, die die Barrierefreiheit bisher erschwert haben. Traditionell hat die Schaffung eines barrierefreien Arbeitsplatzes bedeutet, auf geplante Dolmetscher angewiesen zu sein, die zwar essentiell, aber nicht immer praktisch für alltägliche Kommunikation wie schnelle Anrufe, spontane Meetings oder zeitkritische Aufgaben sind. Diese Einschränkungen schaffen Verzögerungen, erhöhen die Kosten und können unbeabsichtigt taube und schwerhörige Mitarbeiter von der Arbeitsfluss ausgrenzen.

Nagish arbeitet daran, diese Dynamik zu ändern, indem es Mitarbeitern die Möglichkeit gibt, unabhängig und auf Abruf zu kommunizieren. Wenn Unternehmen diese Barrieren beseitigen, können Menschen vollständig teilnehmen, was zu stärkeren Teams, besserer Bindung und einer gerechteren Arbeitsumgebung führt.

Laut einer kürzlich von uns durchgeführten Umfrage gaben mehr als 60 % der tauben und schwerhörigen Befragten an, dass Kommunikationsbarrieren ihre Karriereentscheidungen und ihr berufliches Wachstum beeinflusst haben. Es ist eine ernsthafte Herausforderung, die, trotz all der Fortschritte der letzten Jahre, zeigt, dass noch viel Arbeit zu leisten ist.

Wir ermöglichen es Arbeitgebern, von reaktiven Anpassungen zu proaktiver Inklusion überzugehen, Arbeitsplätze zu schaffen, in denen jeder Mitarbeiter unabhängig und selbstbewusst beitragen kann.

Welche Art von Feedback haben Sie von tauben und schwerhörigen Nutzern erhalten, und wie hat es die Entwicklung des Produkts beeinflusst?

Wir haben Nagish von Anfang an mit der tauben Gemeinschaft aufgebaut, und seitdem haben wir eine Mischung aus Begeisterung, Neugier und in seltenen Fällen auch Bedenken erhalten, was genau so sein sollte. Die taube Gemeinschaft ist sehr bewusst und neugierig auf neue Technologie, und mit gutem Grund. Sie haben so viele Überzeugungen in der Vergangenheit gehört, und wir versuchen, dies zu vermeiden. Wir priorisieren Fortschritt vor Perfektion, was Zeit braucht – aber unser Endziel ist Perfektion.

Diese community-orientierte Einstellung wird durch das bestärkt, was wir in unserem aktuellen Bericht gelernt haben. Nach der Übernahme von Assistenztechnologie zeigten Benutzer einen großen Anstieg an täglicher Unabhängigkeit: Die Anzahl der Menschen, die unabhängig kommunizieren konnten, stieg von 37 % auf 60 % für taube Benutzer und von 32,9 % auf 63 % für schwerhörige Benutzer. Diese Verschiebung spiegelt das Feedback wider, das wir jeden Tag hören: Menschen wollen Tools, die die Kommunikation einfacher, konsistenter und verfügbarer machen, insbesondere in Momenten, in denen Dolmetscher nicht verfügbar sind oder wenn sie Privatsphäre bevorzugen.

Wenn es um unsere Forschung zur Schaffung besserer Gebärdensprach-Interpretationstechnologien geht, ist unser Ziel nicht, menschliche Dolmetscher oder bestehende Kommunikationsmethoden zu ersetzen, sondern eine weitere Option hinzuzufügen, ein Tool, das Barrierefreiheit konsistenter und überall verfügbar macht. Das Feedback der Benutzer hat uns gezeigt, wie wichtig eine “weitere Option” ist, insbesondere in Momenten, in denen ein Dolmetscher nicht verfügbar ist oder wenn jemand einfach Privatsphäre und Unabhängigkeit bevorzugt. Für viele schafft dies Situationen, in denen Kommunikation sonst unangemessen, verzögert oder unerreichbar gewesen wäre.

Wir verfolgen einen community-orientierten Ansatz, um sicherzustellen, dass die Technologie authentisch, genau und respektvoll ist. Solange wir mit Gebärdensprach-Benutzern aufbauen, glauben wir, dass dies als ein ermächtigender Schritt nach vorne wahrgenommen wird.

Privatsphäre ist ein wichtiger Aspekt in der Barrierefreiheitstechnologie – wie gewährleistet Nagish sensible Gespräche und erhält Benutzervertrauen?

Privatsphäre ist für Nagishs Mission, taube und schwerhörige Benutzer zu ermächtigen, von entscheidender Bedeutung. Das Erste, was zu erwähnen ist, ist, dass Nagish es ermöglicht, die Notwendigkeit eines Live-Transkribenten zu beseitigen, was sofort ein Gefühl von Privatsphäre schafft, das zuvor nicht möglich war.

Auf der technischen Seite ist Nagish privat konzipiert. Wir zeichnen keine Anrufe auf und speichern keine Anruftranskripte auf unseren Servern über die Dauer eines Anrufs hinaus. Wir verwenden auch keine Anrufdaten für Trainingszwecke. Wenn Benutzer Transkripte speichern, werden sie lokal auf ihrem Gerät gespeichert und nicht in einer gemeinsamen Cloud. Funktionen wie End-to-End-sichere Untertitelung und lokale Speicherung von Transkripten sind speziell dazu da, um hochsensible Gespräche zu schützen – sei es über Gesundheit, Beschäftigung oder persönliche Beziehungen.

Wie sehen Sie die Zukunft der KI bei der Barrierefreiheit in den nächsten zehn Jahren, und welche Lücken bleiben noch, die die Technologie füllen muss?

Eines der größten Probleme bei der digitalen Barrierefreiheit ist der Mangel an Bildung und Beobachtbarkeit: Ingenieure setzen keine Alt-Texte ein, Designer wählen unzugängliche Farben, weil sie gut aussehen, und Produktmanager treffen Produktentscheidungen für KPIs.

Wenn die KI immer mehr in jeden Aspekt der Produktentwicklung einbezogen wird, von der Entwicklung bis zum Design und zur Copywriting, sehen wir einen proaktiven Ansatz für Barrierefreiheit. KI könnte Barrierefreiheit von etwas Reaktivem und “Patched on” in etwas Proaktives und Ambientes verwandeln. Wir werden auch eine neue Welle von Tools sehen, die die Kommunikation in verschiedenen Umgebungen – nicht nur Anrufen, sondern auch Arbeitsplätzen, Klassenzimmern, Transport und öffentlichen Diensten – unterstützen, sodass Menschen mit Behinderungen und insbesondere taube und schwerhörige Menschen nicht ständig Anpassungen anfordern müssen; sie werden einfach da sein, per Standard.

Wie stellen Sie sich die Zusammenarbeit zwischen menschlichen Dolmetschern und KI in Zukunft vor – wird eine die andere ersetzen oder stärken sie sich gegenseitig?

Gebärdensprach-Dolmetscher leisten unglaubliche Arbeit. Sie sind für die Gemeinschaft, Barrierefreiheit und Kommunikation unerlässlich. Aber die Realität ist, dass es einfach nicht genug von ihnen gibt. In den USA beispielsweise gibt es über 500.000 Menschen, die Amerikanische Gebärdensprache als ihre primäre Sprache verwenden, und nur etwa 10.000 zertifizierte Dolmetscher. Das bedeutet, dass eine enorme Anzahl von Situationen – von Arztbesuchen, Eltern-Lehrer-Konferenzen, Vorstellungsgesprächen und mehr – oft ohne barrierefreie Kommunikation auskommen.

Even wenn Dolmetscher verfügbar sind, gibt es Herausforderungen bei der Terminplanung, Kosten und Geographie. Jemand, der in einer ländlichen Gegend lebt, hätte viel größere Schwierigkeiten, einen Dolmetscher zu finden, und diese Verzögerung kann in der realen Welt, insbesondere in Gesundheits- oder Notfallsituationen, schwerwiegende Folgen haben.

KI kann diese Lücke schließen. Was wir aufbauen, ist nicht dazu gedacht, Dolmetscher zu ersetzen, sondern ihre Arbeit zu ergänzen und Barrierefreiheit skalierbarer zu machen. Denken Sie daran, es als ein Tool, das eintritt, wenn ein menschlicher Dolmetscher nicht verfügbar ist.

Google Translate hat professionelle Übersetzer nicht ersetzt, aber es ermöglichte es, Kommunikationslücken im Alltag zu überbrücken.

Mit Fortschritten in der Computer-Vision und der natürlichen Sprachverarbeitung hält KI das Versprechen, Gebärdensprache in Echtzeit interpretieren zu können. Dies bedeutet, dass mehr Menschen sofort kommunizieren können, sei es durch Videotelefonie, öffentliche Kioske oder Notdienste.

Vielen Dank für das großartige Interview, Leser, die mehr erfahren möchten, sollten Nagish besuchen.

Antoine ist ein visionärer Führer und Gründungspartner von Unite.AI, getrieben von einer unerschütterlichen Leidenschaft für die Gestaltung und Förderung der Zukunft von KI und Robotik. Ein Serienunternehmer, glaubt er, dass KI so disruptiv für die Gesellschaft sein wird wie Elektrizität, und wird oft dabei ertappt, wie er über das Potenzial disruptiver Technologien und AGI schwärmt.

Als futurist ist er darauf fokussiert, zu erforschen, wie diese Innovationen unsere Welt formen werden. Zusätzlich ist er der Gründer von Securities.io, einer Plattform, die sich auf Investitionen in hochmoderne Technologien konzentriert, die die Zukunft neu definieren und ganze Branchen umgestalten.