访谈

Tomer Aharoni,Nagish 的 CEO 和联合创始人 – 采访系列

mm

Tomer Aharoni,Nagish 的 CEO 和联合创始人,拥有来自彭博社的强大技术基础、来自哥伦比亚大学的 NLP 和 IoT 研究经验,以及早期在以色列国防军担任技术情报角色的经验,所有这些都驱动着他对无障碍和技术与通信交叉点的热情。

Nagish 是一个 AI 驱动的通信平台,旨在使电话通话对聋人或听力障碍者完全可访问。该应用程序提供实时字幕和文本转语音功能,同时允许用户保留现有的电话号码,保持完全的隐私,并通过诸如个性化词典、保存的转录和无缝设备集成等功能来管理对话。

您曾在彭博社工作,并在哥伦比亚大学进行了 NLP 研究,什么时刻或洞察力让您将这些经验转化为创建 Nagish 的想法?

在我哥伦比亚大学的本科学习期间,我有一天在课堂上接到一个电话。我不能接听,因为那样会打扰整个班级,这让我开始思考如何在不能听到或说话的情况下进行电话通话?这引发了一个更大的问题:聋人和听力障碍者如何在电话上进行交流?

那是 2019 年,我们(我的联合创始人 Alon Ezer 和我)发现聋人社区严重依赖口译员和字幕助理。我们认为这很疯狂,所以我们开始联系当地聋人社区,并得到了惊人的答案。“我挂断电话”,“我不使用电话”,或“让我弟弟代我打电话”,当我们问人们如何使用电话时,我们收到的回答只是其中几个。

后来那个夏天,我在彭博社担任软件工程师实习生。我的团队中有另一位实习生,她是聋人。每次我想与她见面,我都必须与她和两位口译员协调时间。随时可以“跳上一个快速通话来解决这个问题”的情况是根本不可能的。在与人力资源部讨论后,我了解到找到熟悉技术术语的两位口译员几乎是不可能的,我们只在他们可用时使用他们,但他们并不是全职可用。

我们越了解,就越清楚这些并不是孤立的不便,而是更大模式的一部分。即使在今天,随着提高无障碍性的进步,仍然存在许多挑战和需要解决的领域。在 Nagish,我们最近进行了一项调查并发布了一份报告,聋人和听力障碍者通过通信技术获得权力的影响,发现 65% 的聋人表示他们至少每周需要一次听力人士的帮助来有效地交流。这种依赖在职业环境中造成了真正的障碍,反映在 62% 的聋人受访者表示交流挑战影响了他们的职业决定,并限制了他们追求或在某些角色中晋升的能力。

这些经历和我与聋人个人的日益增长的联系让我建立了 Nagish 的第一个版本。我们有一个从未改变的信念——交流应该是可及的和私人的。

Alon 和我建立了一个原型,反应非常好。我们意识到 Nagish 可以改变生活。然后 COVID 来了,需求爆发,因为世界变成了远程工作,交流的无障碍性变得明显。

您能分享 Nagish 早期的经历以及您在将无障碍目标与尖端 AI 技术相结合时面临的挑战吗?

Nagish 的早期是在疫情期间,所以我们的生活中除了工作之外没有发生太多事情。Alon 和我住在同一个街区,彼此相距很近,我们有很多时间来集思广益、制作原型和实施最新的技术。我们每天在公寓里工作 12 小时以上,持续数月。

拥有这么多时间让我们能够花很多时间与用户交谈,了解他们的需求。我们不想做出假设。在那时,我们仍然没有成立公司的意图。驱动我们的动力是来自用户的反馈,他们分享了自己的挣扎,我们知道我们有机会用技术解决这些问题。

Nagish 的 AI 技术如何弥合聋人或听力障碍者与听力人之间的交流鸿沟,而现有的工具无法做到这一点?

Nagish 使用 AI 来弥合交流差距。我们的引擎可以实时将语音转换为文本、文本转换为语音以及手语转换为文本(反之亦然)。这意味着聋人或听力障碍者可以直接看到通话中说的话,并通过输入或说话来回复,而另一端的听力人只会经历标准的电话通话。在这种 AI 出现之前,人们不得不依赖人工操作的中继服务,一位第三方人员坐在电话线上并进行所有的转录。

使用 Nagish,就没有中继操作员,也没有需要安排的口译员,也不需要等待其他人可用。该应用程序将即时性、隐私和独立性带回电话通话,这些是传统中继服务无法提供的。Nagish 是 AI 驱动的,因此可以扩展到每种类型的通话:工作会议、家庭聚会、紧急情况和客户服务通话。该应用程序旨在轻松集成到日常生活中:用户可以保留自己的电话号码,获得实时字幕,并在电话通话和面对面对话中使用相同的应用程序。整个体验旨在减少摩擦,使交流感觉尽可能自然和无缝。

您的平台如何超越标准的转录或字幕,使互动更加自然和包容?

我们知道语言不仅仅是文字,还包括文化、身份和细微差别。尤其是手语,它依赖于面部表情、情感和地区差异。为了使互动感觉自然而不是机械,我们直接与聋人语言学家和手语专家合作。他们帮助塑造我们的 AI 如何学习和行为,因此该技术是与社区一起构建的,而不仅仅是训练他们的数据。

标准的转录工具通常只提供“以下是所说的话”。我们的目标是支持真正的对话。我们正在实施可以提供上下文并管理通话流程的 AI 代理,不仅仅是提供字幕或朗读文本。另外,Nagish 提供了针对对话流程优化的实时字幕,具有可调整的字体、垃圾邮件过滤、语音邮件转录和在您选择时在设备上保存和审查转录的能力。所有这些都创造了一个与听力人在电话通话中相同的体验。

自然语言处理在确保您的平台不仅捕捉文字,还捕捉意图和语气方面扮演着什么角色?

自然语言处理和自然语言理解是 Nagish 捕捉不仅仅是某人所说的话,还包括他们的意思的核心。语音中充满了添加上下文的线索,例如语气、强调等,我们的 NLP 模型旨在捕捉这些层次,以便用户获得比基本转录更丰富的内容。目标是使字幕感觉尽可能自然地进行对话。

因为 Nagish 是为现实世界情况而构建的,例如医疗通话、工作会议,甚至紧急情况,我们的模型旨在处理快速语音、重叠的声音和情感细微差别。上下文意识是我们经常超越人类转录员和其他 AI 工具的主要原因。系统不仅仅是猜测单词;它使用对话流程来理解意图。

Nagish 如何帮助雇主建立更加包容的工作场所,同时解决长期以来限制无障碍的财务和后勤障碍?

在 Nagish,我们正在帮助雇主通过消除使无障碍变得难以扩展的财务和后勤障碍来建立更加包容的工作场所。传统上,创建无障碍工作场所意味着依赖预定的口译员,这对于日常交流(例如快速通话、临时会议或时间敏感任务)来说并不总是实用。这些限制会造成延迟、增加成本,并可能无意中将聋人和听力障碍员工排除在工作流程之外。

Nagish 正在改变这一动态,赋予员工独立和按需交流的能力。当公司消除这些障碍时,人们可以充分参与,导致团队更加牢固,员工留存率更高,工作场所更加公平。

根据我们最近进行的一项调查,超过 60% 的聋人和听力障碍受访者表示,交流障碍影响了他们的职业决定和职业成长。这是一个严重的挑战,尽管近年来取得了进步,但仍然有很多工作需要做。

我们使雇主能够从被动的便利转变为主动的包容,创造一个每位员工都可以独立和自信地贡献的工作场所。

您从聋人和听力障碍用户那里收到了什么样的反馈,他们又如何影响了产品的演变?

我们从第一天开始就与聋人社区一起建立了 Nagish,并且自那时以来,我们收到了兴奋、好奇和在某些情况下一些犹豫的混合反馈,这正是我们所期望的。聋人社区对新技术非常谨慎和好奇,这是有充分理由的。他们过去听到了很多过度承诺,我们正在努力避免这种情况。我们正在优先考虑进展而不是完美,这需要时间,但我们的最终目标是完美。

这种社区优先的思维方式得到了我们最近报告的支持。在采用辅助技术后,用户在日常独立性方面显示出显著增加:能够独立交流的聋人用户数量从 37% 增加到 60%,听力障碍用户从 32.9% 增加到 63%。这种转变反映了我们每天收到的反馈:人们想要使交流更容易、更一致、更可用的工具,在需要口译员不可用或他们更喜欢隐私时。

当谈到我们创建更好的手语解释技术的研究时,我们的目标不是取代人类口译员或现有的交流方法,而是添加另一个选项,即一种可以在任何地方、任何时候随时使用的工具。用户的反馈强调了“另一个选项”的重要性,特别是在口译员不可用或有人想要隐私和独立时。对于许多人来说,这创造了交流的机会,否则会感觉不方便、延迟或无法实现。

我们正在采取一种社区优先的方法,以确保技术感觉真实、准确和尊重。只要我们继续与手语用户一起构建,我们相信这将被视为赋予力量的一步。

隐私是辅助技术中的一个关键问题 —— Nagish 如何处理敏感对话并保持用户信任?

隐私对于 Nagish 赋予聋人和听力障碍用户权力的使命至关重要。首先,使用 Nagish,您已经可以消除对现场转录员的需求,这本身就能带来一种隐私感,这在以前是不可行的。

从技术上讲,Nagish 的设计注重隐私。我们不记录通话,也不在通话期间以外存储通话转录。我们也不使用任何通话数据进行训练。当用户选择保存转录时,它们存储在他们的设备上,而不是共享云存储中。诸如端到端安全字幕和转录本地存储等功能旨在保护高度敏感的对话,无论它们是关于健康、就业还是个人关系。

您如何看待 AI 在未来十年中重塑无障碍,并且技术仍然需要填补哪些空白?

数字无障碍的一个最大问题是缺乏教育和可见性:工程师不实施 alt 文本,设计师选择不可访问的颜色,因为它们看起来很好,产品经理做出产品决策以满足 KPI。随着 AI 在产品开发的各个方面(从工程到设计到内容创作)变得更加普遍,我们看到了一种主动的无障碍方法。AI 可以将无障碍从反应性和“补丁式”的东西转变为主动和无处不在的东西。我们还将看到一波新的工具,它们将在各种环境中增强交流,不仅仅是通话,还包括工作场所、教室、交通和公共服务,这样,残疾人、尤其是聋人和听力障碍者,不需要不断要求便利;这些便利将默认存在。

您如何看待人类口译员和 AI 之间的合作演变 —— 一方最终会取代另一方,还是它们会相互增强?

手语口译员做着令人难以置信的工作。他们对社区、无障碍和交流至关重要。但是,现实是,他们的人数不够。例如,在美国,有超过 50 万人使用美国手语作为他们的主要语言,但只有大约 1 万名认证口译员。这意味着在许多情况下,例如医生访问、家长会、工作面试等,经常缺乏无障碍的交流,即使口译员可用,也存在安排、成本和地理位置的问题。住在农村地区的人将更难获得口译员,这种延迟可能会在医疗保健或紧急情况下产生现实世界的后果。

AI 可以帮助弥合这一差距。我们正在构建的东西不是旨在取代口译员,而是补充他们的工作,使无障碍变得更加可扩展。可以把它看作是一种工具,当人类口译员不可用时,它就会介入。Google Translate 没有取代专业翻译员,但它使日常交流成为可能。随着计算机视觉和自然语言处理的进步,AI 有望能够实时解释手语。这意味着更多的人可以立即交流,无论是通过视频通话、公共服务终端还是紧急服务。

感谢您接受这次精彩的采访,希望读者能够通过访问 Nagish 来了解更多信息。

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。