Интервью
Томер Ахарони, генеральный директор и сооснователь Nagish – Интервью

Томер Ахарони, генеральный директор и сооснователь Nagish, объединяет сильную техническую основу, полученную во время работы программистом в Bloomberg, исследования в области NLP и IoT в Колумбийском университете, а также ранний опыт работы в области технологической разведки в Израильских оборонных силах, все это движимо его страстью к доступности и пересечению технологий и коммуникации.
Nagish – это платформа коммуникации, работающая на основе ИИ, предназначенная для того, чтобы сделать телефонные звонки полностью доступными для людей, которые глухи или имеют проблемы со слухом. Приложение предоставляет функции реального времени, такие как подписывание и текст-в-речь, при этом позволяя пользователям сохранять свой существующий номер телефона, поддерживать полную конфиденциальность и управлять разговорами с помощью функций, таких как персонализированные словари, сохраненные транскрипты и бесшовная интеграция устройств.
Какой момент или прозрение привел вас к тому, чтобы использовать свой опыт для создания Nagish?
Во время моего обучения в Колумбийском университете я получил звонок во время занятия. Я не мог ответить на звонок, так как это бы прервало весь класс, и это заставило меня подумать о том, как можно провести телефонный разговор, если вы не можете слышать или говорить? Это привело к более широкому вопросу: как люди, которые глухи или имеют проблемы со слухом, общаются по телефону?
Это было в 2019 году, и мы (Алон Эзер, мой сооснователь, и я) обнаружили, что глухое сообщество сильно зависит от переводчиков и ассистентов по подписыванию. Мы подумали, что это безумие, и начали связываться с людьми из местного глухого сообщества, и то, что мы услышали, было действительно удивительно для нас. “Я просто вешаю трубку, когда кто-то звонит мне”, “Я не использую телефон”, или “Я прошу своего брата позвонить за меня” – это были только некоторые ответы, которые мы получили, когда спросили людей, как они используют телефон.
Позже того же лета я стажировался в качестве программиста в Bloomberg. В нашей команде был другой стажер, который был глухим. Каждый раз, когда я хотел встретиться с ней, мне приходилось согласовывать графики с ней и двумя переводчиками. Неформальная фраза “давайте быстро пообщаемся, чтобы все понять” была просто невозможна. После разговора с отделом кадров я узнал, что найти этих двух переводчиков, знакомых с техническим жаргоном, было почти невозможно, и что мы используем их всякий раз, когда они доступны, но они не доступны полный рабочий день.
Чем больше мы узнали, тем более rõко стало, что эти неудобства не были изолированными, а частью гораздо большей картины. Даже сейчас, с учетом достижений, которые улучшили доступность, все еще существует много проблем и областей, которые необходимо решить. В Nagish мы недавно провели опрос и выпустили отчет, Влияние коммуникационной технологии на эмансипацию глухих и слабослышащих, который показал, что 65% глухих людей заявили, что им нужна помощь от слышащего человека хотя бы раз в неделю, чтобы общаться эффективно. Эта зависимость создает реальные барьеры в профессиональной среде, отраженные в том факте, что 62% глухих респондентов заявили, что проблемы с коммуникацией повлияли на их карьерные решения и ограничили их способность занимать или продвигаться на определенные должности.
Эти переживания, а также мои растущие связи с глухими людьми, привели меня к созданию первой версии Nagish. У нас есть одна убежденность, которая не изменилась – коммуникация должна быть доступной и частной.
Алон и я построили прототип, и реакция была невероятной. Мы поняли, насколько жизнь может измениться с помощью Nagish. Затем произошла пандемия COVID, и потребность взорвалась, когда мир перешел на удаленную работу, и отсутствие доступности в коммуникации стало действительно очевидным.
Можете ли вы рассказать о ранних днях Nagish и проблемах, с которыми вы столкнулись при объединении целей доступности с передовыми технологиями ИИ?
Ранние дни Nagish пришлись на время пандемии, поэтому в нашей жизни не было ничего, кроме работы. Алон и я жили в одном квартале и имели много времени, чтобы мозговым штурмом, создавать прототипы и реализовывать последние технологии. Мы работали из своих квартир по 12 часов в день в течение месяцев.
У нас было много времени, чтобы поговорить с нашими пользователями и понять их потребности. Мы не хотели делать предположений. На тот момент у нас еще не было намерения создать компанию. То, что нас мотивировало, было слышать от пользователей о их проблемах и знать, что у нас есть шанс решить их с помощью технологий.
Как технология ИИ Nagish преодолевает коммуникационный разрыв между глухими или слабослышащими людьми и слышащим миром способами, которые существующие инструменты не могут?
Nagish использует ИИ для преодоления коммуникационных разрывов. Наши двигатели переводят речь в текст, текст обратно в речь, и язык жестов в текст (и наоборот) в реальном времени. Это означает, что глухой или слабослышащий человек может просто увидеть, что говорится во время звонка, и ответить, набирая текст или говоря, в то время как слышащий человек на другом конце линии испытывает стандартный телефонный разговор. До появления такого ИИ люди полагались на услуги ретрансляции, где третий человек сидел на линии и выполнял всю транскрипцию.
С Nagish нет оператора ретрансляции, нет переводчика, которого нужно назначать, и нет необходимости ждать, пока кто-то другой будет доступен. Приложение возвращает мгновенность, конфиденциальность и независимость в телефонные звонки, что традиционные услуги ретрансляции не могут предложить.
Поскольку Nagish работает на основе ИИ, он может масштабироваться до любого типа звонка: рабочих встреч, семейных проверок, чрезвычайных ситуаций и звонков обслуживания клиентов. Приложение предназначено для легкой интеграции в повседневную жизнь: пользователи могут сохранять свой собственный номер, получать транскрипты в реальном времени и использовать одно и то же приложение для телефонных звонков и личных разговоров. Всему опыту предназначено уменьшить трение и сделать коммуникацию такой же естественной и бесшовной, как только возможно.
В каких способах ваша платформа выходит за рамки стандартной транскрипции или подписывания, чтобы сделать взаимодействия более естественными и инклюзивными?
Мы знаем, что язык – это не только слова, но и культура, идентичность и нюансы. Это особенно верно для языков жестов, которые полагаются на выражение лица, эмоции и региональные вариации. Чтобы сделать взаимодействия более естественными, а не механическими, мы сотрудничаем напрямую с глухими лингвистами и экспертами по языку жестов. Они помогают формировать, как наш ИИ учится и ведет себя, поэтому технология строится вместе с сообществом, а не просто обучается на их данных.
Стандартные инструменты транскрипции часто останавливаются на “вот слова, которые были сказаны”. Наша цель – поддержать фактический разговор. Мы реализуем агентов ИИ, которые могут предоставить контекст и управлять потоком звонка за пределами простого предоставления транскрипций или чтения текста вслух. Кроме того, Nagish предлагает транскрипции в реальном времени, оптимизированные для потока разговора, с функциями, такими как настраиваемые шрифты, фильтрация спама, транскрипция голосовой почты и возможность сохранять и просматривать транскрипты на вашем устройстве, когда вы выберете. Все это создает эквивалентный опыт тому, который слышащие люди имеют во время телефонных звонков.
Какая роль играет обработка естественного языка в обеспечении того, что ваша платформа захватывает не только слова, но и намерение и тон?
Обработка естественного языка и понимание естественного языка являются основой того, как Nagish захватывает не только то, что кто-то говорит, но и то, что он имеет в виду. Речь полна сигналов, которые добавляют контекст, такие как тон, акцент и многое другое, и наши модели NLP предназначены для уловления этих слоев, чтобы пользователи получали больше, чем просто базовую транскрипцию. Цель – сделать транскрипции такими же естественными, как только возможно.
Поскольку Nagish построен для реальных ситуаций, таких как медицинские звонки, рабочие встречи и даже чрезвычайные ситуации, наши модели обучены обрабатывать быструю речь, перекрывающиеся голоса и эмоциональные нюансы. Осведомленность о контексте – это большая причина, почему мы часто превосходим как человеческих транскрипторов, так и другие инструменты ИИ. Система не просто угадывает слова; она использует поток разговора, чтобы понять намерение.
Как Nagish помогает работодателям создавать более инклюзивные рабочие места, решая финансовые и логистические барьеры, которые долгое время ограничивали доступность?
В Nagish мы помогаем работодателям создавать более инклюзивные рабочие места, удаляя финансовые и логистические барьеры, которые сделали доступность трудной для масштабирования. Традиционно создание доступной рабочей среды означало полагаться на назначенных переводчиков, которые необходимы, но не всегда практичны для повседневной коммуникации, такой как быстрые звонки, неожиданные встречи или срочные задачи. Эти ограничения создают задержки, добавляют стоимость и могут непреднамеренно исключить глухих и слабослышащих сотрудников из потока работы.
Nagish работает над изменением этой динамики, давая сотрудникам возможность общаться независимо и по требованию. Когда компании удаляют эти барьеры, люди могут участвовать полностью, что приводит к более сильным командам, лучшему удержанию и более справедливой рабочей среде.
Согласно недавнему опросу, который мы провели, более 60% глухих и слабослышащих респондентов заявили, что барьеры коммуникации повлияли на их карьерные решения и профессиональный рост. Это серьезная проблема, которая, даже с учетом всех достижений, сделанных за последние несколько лет, показывает, что все еще много работы предстоит сделать.
Мы позволяем работодателям перейти от реактивных приспособлений к проактивному включению, создавая рабочие места, где каждый сотрудник может вносить свой вклад независимо и уверенно.
Какой обратную связь вы получили от глухих и слабослышащих пользователей, и как она повлияла на эволюцию продукта?
Мы построили Nagish вместе с глухим сообществом с первого дня, и с тех пор мы получаем смесь волнения, любопытства и в редких случаях некоторой неуверенности, что именно так и должно быть. Сообщество глухих очень осведомлено и любопытно о новой технологии, и с хорошей причиной. Они слышали так много обещаний в прошлом, и мы пытаемся избежать этого. Мы отдаем приоритет прогрессу над совершенством, что требует времени – но наша конечная цель – совершенство.
Этот подход, ориентированный на сообщество, подкрепляется тем, что мы узнали из нашего недавнего отчета. После принятия вспомогательных технологий пользователи показали значительный рост ежедневной независимости: количество людей, которые могли общаться независимо, увеличилось с 37% до 60% для глухих пользователей и с 32,9% до 63% для слабослышащих пользователей. Этот сдвиг отражает обратную связь, которую мы слышим каждый день: люди хотят инструменты, которые делают коммуникацию проще, более последовательной и доступной в моменты, когда переводчики не доступны или когда они предпочитают конфиденциальность.
Когда речь идет о наших исследованиях по созданию лучших технологий интерпретации языка жестов, наша цель не состоит в том, чтобы заменить человеческих переводчиков или существующие методы коммуникации, а в том, чтобы добавить еще один вариант, инструмент, который делает доступность более последовательной и доступной везде и всегда. Обратная связь пользователей подкрепила, насколько важен “дополнительный вариант”, особенно в моменты, когда переводчик не доступен или когда кто-то просто хочет конфиденциальность и независимость. Для многих это создает ситуации, когда коммуникация была бы иначе неудобной, задержанной или недоступной.
Мы придерживаемся подхода, ориентированного на сообщество, чтобы убедиться, что технология кажется аутентичной, точной и уважительной. Пока мы продолжаем строить вместе с пользователями языка жестов, мы считаем, что это будет воспринято как эмансипирующий шаг вперед.
Конфиденциальность является ключевой проблемой в технологии доступности – как Nagish обрабатывает конфиденциальные разговоры и поддерживает доверие пользователей?
Конфиденциальность имеет решающее значение для миссии Nagish по эмансипации глухих и слабослышащих пользователей. Первое, что нужно упомянуть, – это то, что с Nagish вы уже можете исключить необходимость в живом транскрипторе, поэтому сразу же появляется чувство конфиденциальности, которое было невозможно ранее.
С технической стороны Nagish спроектирован с учетом конфиденциальности. Мы не записываем звонки и никогда не храним транскрипты звонков на наших серверах после завершения звонка. Мы также не используем какие-либо данные о звонках для обучения. Когда пользователи выбирают сохранить транскрипты, они хранятся локально на их устройстве, а не в общем облаке. Функции, такие как безопасное подписывание от конца до конца и локальное хранение транскриптов, предназначены для защиты высоко конфиденциальных разговоров – будь то вопросы здоровья, занятости или личных отношений.
Как вы видите будущее ИИ в области доступности в течение следующего десятилетия, и какие пробелы все еще остаются для технологий, чтобы их заполнить?
Одной из основных проблем цифровой доступности является отсутствие образования и наблюдаемости: инженеры не реализуют альтернативный текст, дизайнеры выбирают недоступные цвета, потому что они выглядят хорошо, и менеджеры продукта принимают решения о продукте на основе показателей эффективности.
По мере того, как ИИ становится все более и более вовлеченным в каждый аспект разработки продукта, от инженерии до дизайна и написания текста, мы видим проактивный подход к доступности. ИИ может изменить доступность из чего-то реактивного и “заплаточного” в что-то проактивное и окружающее. Мы также увидим новую волну инструментов, которые будут дополнять коммуникацию в различных условиях – не только звонки, но и рабочие места, классы, транспорт и общественные услуги – так, чтобы люди с ограниченными возможностями, и глухие и слабослышащие люди в частности, не должны постоянно запрашивать приспособления; они просто будут там по умолчанию.
Как вы представляете себе сотрудничество между человеческими переводчиками и ИИ – в конечном итоге один заменит другого, или они укрепляют друг друга?
Переводчики языка жестов выполняют удивительную работу. Они необходимы для сообщества, доступности и коммуникации. Но реальность такова, что просто не хватает их. В США, например, существует более 500 000 человек, которые используют американский язык жестов как основной язык, и только около 10 000 сертифицированных переводчиков. Это означает, что огромное количество ситуаций – от посещений врача, встреч родителей и учителей, собеседований и многого другого – часто лишены доступной коммуникации.
Даже когда переводчики доступны, есть проблемы с планированием, стоимостью и географией. Кто-то, живущий в сельской местности, будет иметь гораздо больше трудностей с получением переводчика, и эта задержка может иметь реальные последствия, особенно в медицинских или аварийных ситуациях.
ИИ может помочь преодолеть этот разрыв. То, что мы строим, не предназначено для замены переводчиков, а для дополнения их работы и сделать доступность более масштабируемой. Подумайте об этом как об инструменте, который вмешивается, когда человеческий переводчик не доступен.
Google Translate не заменил профессиональных переводчиков, но сделал возможным преодоление коммуникационных разрывов в повседневной жизни.
С достижениями в области компьютерного зрения и обработки естественного языка ИИ держит обещание начать интерпретировать язык жестов в реальном времени. Это означает, что больше людей могут общаться мгновенно, будь то видеозвонок, общественный киоск или аварийная служба.
Спасибо за отличное интервью, читатели, которые хотят узнать больше, должны посетить Nagish.












