Wywiady
Tomer Aharoni, CEO i współzałożyciel Nagish – seria wywiadów

Tomer Aharoni, CEO i współzałożyciel Nagish, łączy silne podstawy techniczne ze swojej pracy jako inżynier oprogramowania w Bloomberg, badania w dziedzinie NLP i IoT na Uniwersytecie Columbia, oraz wcześniejsze doświadczenie w rolach wywiadowczych w Izraelskich Siłach Obrony, wszystko to napędzane przez jego pasję do dostępności i przecięcia technologii i komunikacji.
Nagish to platforma komunikacji wspomaganej przez sztuczną inteligencję, zaprojektowana w celu uczynienia połączeń telefonicznych w pełni dostępnymi dla osób głuchych lub słabosłyszących. Aplikacja zapewnia transkrypcję w czasie rzeczywistym i możliwości konwersji tekstu na mowę, jednocześnie pozwalając użytkownikom na zachowanie swojego istniejącego numeru telefonu, utrzymanie pełnej prywatności i zarządzanie rozmowami za pomocą funkcji takich jak słowniki personalizowane, zapisane transkrypcje i płynne integracje urządzeń.
Jakie wydarzenie lub spostrzeżenie skłoniło Cię do wykorzystania tego doświadczenia w celu stworzenia Nagish?
Podczas moich studiów licencjackich na Uniwersytecie Columbia, siedziałem na zajęciach, kiedy dostałem połączenie telefoniczne. Nie mogłem odebrać, ponieważ przerwałoby to całe zajęcia, i to skłoniło mnie do myślenia o tym, jak można prowadzić rozmowę telefoniczną, jeśli nie można słyszeć lub mówić? To skłoniło mnie do większego pytania: jak osoby głuche lub słabosłyszące komunikują się przez telefon?
To było w 2019 roku, i my (Alon Ezer, mój współzałożyciel, i ja) odkryliśmy, że społeczność głucha opierała się w dużej mierze na tłumaczach i asystentach transkrypcji. Uważaliśmy to za szalone, więc zaczęliśmy kontaktować się z ludźmi ze społeczności głuchych, i to, co usłyszeliśmy, było dla nas naprawdę zaskakujące. „Po prostu kończę połączenie, kiedy ktoś dzwoni”, „Nie używam telefonu”, lub „Proszę mojego brata, aby zadzwonił za mnie”, to tylko niektóre odpowiedzi, które otrzymaliśmy, kiedy zapytaliśmy ludzi, jak używają telefonu.
Późnym latem, odbywałem staż jako inżynier oprogramowania w Bloomberg. W moim zespole mieliśmy innego stażystę, który był głuchy. Każdy raz, kiedy chciałem się z nim spotkać, musiałem ustalić termin z nim i z dwoma tłumaczami. Nie mogłem po prostu powiedzieć „dajmy się połączyć, aby to wyjaśnić”. Po rozmowie z HR dowiedziałem się, że znalezienie tych dwóch tłumaczy, którzy znali język techniczny, było niemal niemożliwe i że używaliśmy ich, kiedy tylko byli dostępni, ale nie byli dostępni cały czas.
Im więcej się uczyliśmy, tym bardziej stało się jasne, że te nieprzyjemności nie były odosobnione, ale częścią znacznie większego wzorca. Nawet dzisiaj, pomimo postępu, jaki został dokonany w celu poprawy dostępności, nadal istnieją wiele wyzwań i obszarów, które wymagają rozwiązania. W Nagish przeprowadziliśmy niedawno ankietę i opublikowaliśmy raport, Wpływ technologii komunikacyjnej na umożliwienie głuchym i słabosłyszącym, który wykazał, że 65% osób głuchych powiedziało, że potrzebują pomocy osoby słyszącej co najmniej raz w tygodniu, aby skutecznie się komunikować. To uzależnienie tworzy prawdziwe bariery w środowiskach zawodowych, odzwierciedlone w fakcie, że 62% osób głuchych powiedziało, że wyzwania komunikacyjne wpłynęły na ich decyzje zawodowe i ograniczyły ich możliwości podjęcia lub awansu na pewnych stanowiskach.
Te doświadczenia, oraz moje rosnące połączenia z osobami głuchymi, skłoniły mnie do budowy pierwszej wersji Nagish. Mamy jedną wiarę, która nie uległa zmianie – komunikacja powinna być dostępna i prywatna.
Alon i ja zbudowaliśmy prototyp, i reakcja była niesamowita. Zrozumieliśmy, jak zmieniające życie może być Nagish. Potem nastąpiła pandemia, i potrzeba eksplodowała, kiedy świat poszedł na odległość, i brak dostępności w komunikacji stał się naprawdę widoczny.
Możesz podzielić się tym, jak wyglądały wczesne dni Nagish, i jakie wyzwania stwarzało łączenie celów dostępności z najnowocześniejszą technologią AI?
Wczesne dni Nagish przypadły na pandemię, więc nie było wiele rzeczy, które działy się poza pracą. Alon i ja mieszkaliśmy wokół bloku od siebie i mieliśmy wiele czasu, aby wymyślać, tworzyć prototypy i wdrażać najnowsze technologie. Pracowaliśmy z naszych mieszkań przez 12+ godzin dziennie przez miesiące.
Mieliśmy dużo czasu, aby porozmawiać z naszymi użytkownikami i zrozumieć ich potrzeby. Nie chcieliśmy robić założeń. W tym momencie jeszcze nie mieliśmy zamiaru tworzyć firmy. To, co nas motywowało, to słuchanie użytkowników o ich problemach i wiedza, że mamy szansę je rozwiązać za pomocą technologii.
Jak technologia AI Nagish łączy komunikację między osobami głuchymi lub słabosłyszącymi a światem słyszącym w sposób, który nie jest możliwy z istniejącymi narzędziami?
Nagish wykorzystuje AI do łączenia luk w komunikacji. Nasze silniki konwertują mowę na tekst, tekst z powrotem na mowę i język migowy na tekst (i odwrotnie) w czasie rzeczywistym. To oznacza, że osoba głucha lub słabosłysząca może po prostu zobaczyć, co jest mówione podczas połączenia, i odpowiedzieć, wpisując lub mówiąc, podczas gdy osoba słysząca na drugim końcu doświadcza standardowego połączenia telefonicznego. Przed tym rodzajem AI ludzie musieli polegać na usługach pośredniczących, w których trzecia osoba siedziała na linii i robiła wszystkie transkrypcje.
Ze Nagish nie ma operatora pośredniczącego, nie ma tłumacza do zaplanowania, i nie ma czekania na kogoś innego, aby był dostępny. Aplikacja przywraca natychmiastowość, prywatność i niezależność do połączeń telefonicznych, czego nie mogą zapewnić tradycyjne usługi pośredniczące.
Ponieważ Nagish jest wspomagany przez AI, może skalować się do każdego rodzaju połączenia: spotkań w pracy, spotkań rodzinnych, sytuacji awaryjnych i połączeń z obsługą klienta. Aplikacja jest zaprojektowana, aby łatwo integrować się z normalnym życiem: użytkownicy mogą zachować swój numer, uzyskać transkrypcje w czasie rzeczywistym i używać tej samej aplikacji w połączeniach telefonicznych i rozmowach osobistych. Całe doświadczenie jest zaprojektowane, aby zmniejszyć tarcie i sprawić, że komunikacja będzie wydawać się tak naturalna i płynna, jak to tylko możliwe.
W jaki sposób twoja platforma wykracza poza standardową transkrypcję lub napisy, aby uczynić interakcje bardziej naturalnymi i inkluzywnymi?
Wiemy, że język to nie tylko słowa, ale także kultura, tożsamość i nuanse. To szczególnie prawdziwe w przypadku języków migowych, które opierają się na wyrażaniu twarzy, emocjach i regionalnych wariacjach. Aby uczynić interakcje bardziej naturalnymi niż mechanicznymi, współpracujemy bezpośrednio z lingwistami głuchymi i ekspertami od języka migowego. Oni pomagają kształtować, jak nasz AI uczy się i zachowuje, aby technologia była budowana z myślą o społeczności, a nie tylko szkolona na ich danych.
Standardowe narzędzia transkrypcyjne często kończą się na „oto słowa, które zostały powiedziane”. Naszym celem jest wspieranie prawdziwej rozmowy. Wdrożymy Agenty AI, które mogą zapewnić kontekst i zarządzać przepływem połączenia, poza prostym dostarczaniem napisów lub czytaniem tekstu. Ponadto Nagish oferuje napisy w czasie rzeczywistym zoptymalizowane pod kątem przepływu rozmowy, z funkcjami takimi jak dostosowywalne czcionki, filtrowanie spamu, transkrypcja poczty głosowej i możliwość zapisania i przeglądania transkrypcji na własnym urządzeniu, kiedy się zdecydujesz. To wszystko tworzy doświadczenie równoważne do tego, jakie mają osoby słyszące podczas połączeń telefonicznych.
Jaka rola przetwarzania języka naturalnego odgrywa w zapewnieniu, że twoja platforma ujmuje nie tylko słowa, ale także intencję i ton?
Przetwarzanie języka naturalnego i rozumienie języka naturalnego są podstawą, jak Nagish ujmuje nie tylko to, co ktoś mówi, ale także to, co ma na myśli. Mowa jest pełna sygnałów, które dodają kontekst, takich jak ton, nacisk i więcej, a nasze modele NLP są zaprojektowane, aby zrozumieć te warstwy, aby użytkownicy otrzymali coś więcej niż podstawową transkrypcję. Celem jest uczynienie napisów tak bliskimi naturalnej rozmowie, jak to tylko możliwe.
Ze względu na to, że Nagish jest zbudowany dla sytuacji rzeczywistych, takich jak połączenia medyczne, spotkania w pracy i nawet sytuacje awaryjne, nasze modele są szkolone, aby radzić sobie z szybką mową, nakładającymi się głosami i emocjonalnymi niuansami. Świadomość kontekstu jest dużym powodem, dla którego często przewyższamy zarówno ludzkich tłumaczy, jak i inne narzędzia AI. System nie tylko zgaduje słowa; wykorzystuje przepływ rozmowy, aby zrozumieć intencję.
Jak Nagish pomaga pracodawcom budować bardziej inkluzywne miejsca pracy, jednocześnie rozwiązując finansowe i logistyczne bariery, które od dawna ograniczały dostępność?
W Nagish pomagamy pracodawcom budować bardziej inkluzywne miejsca pracy, usuwając finansowe i logistyczne bariery, które utrudniały dostępność. Tradycyjnie tworzenie dostępnego miejsca pracy oznaczało poleganie na zaplanowanych tłumaczach, co jest niezbędne, ale nie zawsze praktyczne dla codziennej komunikacji, takiej jak szybkie połączenia, spotkania doraźne lub zadania wymagające czasu. Te ograniczenia tworzą opóźnienia, dodają koszty i mogą nieumyślnie wykluczyć pracowników głuchych lub słabosłyszących z przepływu pracy.
Nagish zmienia tę dynamikę, dając pracownikom możliwość niezależnej komunikacji na żądanie. Kiedy firmy usuwają te bariery, ludzie mogą w pełni uczestniczyć, co prowadzi do silniejszych zespołów, lepszych wyników i bardziej sprawiedliwego miejsca pracy.
Zgodnie z niedawną ankietą, którą przeprowadziliśmy, ponad 60% osób głuchych i słabosłyszących powiedziało, że bariery komunikacyjne wpłynęły na ich decyzje zawodowe i rozwój zawodowy. To poważne wyzwanie, które, nawet pomimo wszystkich postępów dokonanych w ciągu ostatnich kilku lat, pokazuje, że nadal wiele pracy pozostaje do wykonania.
Pozwalamy pracodawcom przechodzić od reaktywnych dostosowań do proaktywnej inkluzywności, tworząc miejsca pracy, w których każdy pracownik może wnieść swój wkład niezależnie i z pewnością.
Jaki rodzaj informacji zwrotnej otrzymałeś od użytkowników głuchych i słabosłyszących, i jak wpłynęło to na ewolucję produktu?
Zbudowaliśmy Nagish z myślą o społeczności głuchych od samego początku, i od tego czasu otrzymujemy mieszankę entuzjazmu, ciekawości i rzadkich przypadków wahania, co jest dokładnie tym, czego oczekujemy. Społeczność głucha jest bardzo świadoma i dociekliwa wobec nowych technologii, i z dobrym powodem. Słyszeli oni wiele obietnic w przeszłości, i staramy się uniknąć tego. Priorytetem jest postęp nad doskonałością, co wymaga czasu – ale nasz ostateczny cel to doskonałość.
Ten nastawiony na społeczność umysł jest wzmocniony tym, czego nauczyliśmy się w naszym niedawnym raporcie. Po przyjęciu technologii wspomagającej użytkownicy wykazali znaczny wzrost niezależności w codziennym życiu: odsetek osób, które mogły komunikować się niezależnie, wzrósł z 37% do 60% dla użytkowników głuchych, i z 32,9% do 63% dla użytkowników słabosłyszących. Ta zmiana odzwierciedla informacje zwrotne, które słyszymy każdego dnia: ludzie chcą narzędzi, które ułatwiają komunikację, są bardziej spójne i dostępne w momentach, kiedy tłumacze nie są dostępni lub kiedy ktoś woli prywatność i niezależność. Dla wielu tworzy to sytuacje, w których komunikacja byłaby inaczej niewygodna, opóźniona lub poza zasięgiem.
Pracujemy nad podejściem nastawionym na społeczność, aby upewnić się, że technologia wydaje się autentyczna, dokładna i szanująca. Dopóki będziemy budować z użytkownikami języka migowego, wierzymy, że to będzie postrzegane jako empowerment.
Prywatność jest kluczową kwestią w technologiach dostępności — jak Nagish radzi sobie z wrażliwymi rozmowami i utrzymuje zaufanie użytkowników?
Prywatność jest kluczowa dla misji Nagish, aby umożliwić osobom głuchym i słabosłyszącym. Po pierwsze, z Nagish możesz już wyeliminować potrzebę żywej transkrypcji, więc od razu jest już poczucie prywatności, którego nie było możliwe wcześniej.
Pod względem technicznym Nagish jest prywatny z założenia. Nie nagrywamy połączeń i nie przechowujemy transkrypcji połączeń na naszych serwerach poza czasem trwania połączenia. Nie używamy także danych połączeń do celów szkoleniowych. Kiedy użytkownicy zdecydują się zapisać transkrypcje, są one przechowywane lokalnie na ich urządzeniu, a nie w udziale w chmurze. Funkcje takie jak bezpieczne napisy z końca do końca i lokalne przechowywanie transkrypcji są tam specjalnie, aby chronić bardzo wrażliwe rozmowy – czy to zdrowie, zatrudnienie, czy osobiste relacje.
Jak widzisz przyszłość AI w kształtowaniu dostępności w nadchodzącej dekadzie, i jakie luki nadal pozostają do wypełnienia przez technologię?
Jednym z największych problemów z cyfrową dostępnością jest brak edukacji i obserwowalności: inżynierowie nie wdrażają alt-tekstu, projektanci wybierają nieprzystępne kolory, ponieważ wyglądają dobrze, a menedżerowie produktu podejmują decyzje dotyczące produktu dla wskaźników KPI.
Podczas gdy AI staje się coraz bardziej zaangażowane w każdy aspekt rozwoju produktu, od inżynierii do projektowania, do pisania, widzimy proaktywne podejście do dostępności. AI może zmienić dostępność z czegoś reaktywnego i „naprawionego” w coś proaktywnego i ambientnego. Zobaczymy nową falę narzędzi, które będą uzupełniać komunikację w różnych ustawieniach – nie tylko połączenia, ale także miejsca pracy, klasy, transport i usługi publiczne – tak, aby osoby z niepełnosprawnościami, a w szczególności osoby głuche i słabosłyszące, nie musiały ciągle prosić o dostosowania; po prostu będą tam domyślnie.
Jak wyobrażasz sobie ewolucję współpracy między ludzkimi tłumaczami a AI — czy jeden ostatecznie zastąpi drugiego, czy wzajemnie się wzmacniają?
Tłumacze języka migowego wykonują niesamowitą pracę. Są niezbędni dla społeczności, dostępności i komunikacji. Ale rzeczywistość jest taka, że po prostu ich nie ma wystarczająco. W Stanach Zjednoczonych, na przykład, jest ponad 500 000 osób, które używają amerykańskiego języka migowego jako ich podstawowego języka, i tylko około 10 000 certyfikowanych tłumaczy. To oznacza, że ogromna liczba sytuacji – od wizyt lekarskich, spotkań rodziców i nauczycieli, rozmów kwalifikacyjnych i więcej – często brakuje dostępnej komunikacji.
Nawet gdy tłumacze są dostępni, istnieją wyzwania związane z planowaniem, kosztami i geografią. Ktoś mieszkający na obszarach wiejskich miałby znacznie trudniejszy czas, aby dostać tłumacza, i to opóźnienie może mieć realne konsekwencje, szczególnie w opiece zdrowotnej lub sytuacjach awaryjnych.
AI może pomóc zabić tę lukę. To, co budujemy, nie jest przeznaczone do zastąpienia tłumaczy, ale do uzupełnienia ich pracy i uczynienia dostępności bardziej skalowalną. Myśl o tym jako o narzędziu, które wkracza, kiedy tłumacz ludzki nie jest dostępny.
Google Translate nie zastąpił profesjonalnych tłumaczy, ale umożliwił mostek komunikacyjny na co dzień.
Ze względu na postępy w rozpoznawaniu obrazu i przetwarzaniu języka naturalnego, AI daje obietnicę, że będzie mogło zacząć interpretować język migowy w czasie rzeczywistym. To oznacza, że więcej ludzi może komunikować się natychmiast, czy to przez wideopołączenie, publiczny kiosk, czy usługę awaryjną.
Dziękuję za wspaniały wywiad, czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić Nagish.












