インタビュー

NagishのCEO兼共同創設者Tomer Aharoni – インタビューシリーズ

mm

Tomer Aharoni, NagishのCEO兼共同創設者は、ブルームバーグでのソフトウェアエンジニアとしての経験、コロンビア大学でのNLPとIoTの研究、 以前はイスラエル国防軍での技術インテリジェンスの役割など、強力な技術的基盤を持ち合わせている。彼の情熱は、無障害とテクノロジーとコミュニケーションの交差点にある。

Nagishは、聴覚障害者の電話通話を完全にアクセシブルにするためのAI搭載のコミュニケーションプラットフォームである。アプリは、リアルタイムのキャプションとテキストからスピーチの機能を提供しながら、ユーザーが既存の電話番号を保持し、完全なプライバシーを維持し、個人用辞書、保存されたトランスクリプト、シームレスなデバイス統合などの機能で会話を管理できるようにする。

あなたはブルームバーグで働き、コロンビア大学でNLPの研究を行った。どのような瞬間や洞察があなたをNagishの創設に導いたのか。

コロンビア大学での学部生のとき、クラス中に電話がかかってきた。クラス中に電話に出ることができなかったので、電話ができないことを考えるようになった。聴覚障害者は電話でコミュニケーションをとる方法はあるのか。そう考えるようになった。

2019年のことだった。私と共同創設者のAlon Ezerは、聴覚障害コミュニティが通訳やキャプションアシスタントに大きく依存していることを発見した。私たちはそれが信じられないと思った。そこで、地元の聴覚障害コミュニティの人々に連絡を取り、驚くべきことが聞けた。「私は電話に出ない」、「私は電話を使わない」、「私は兄弟に電話をかけてもらう」など、私たちが電話の使用方法を聞いたときの回答だった。

その夏、私はブルームバーグでソフトウェアエンジニアとしてインターンしていた。私のチームには、聴覚障害のあるインターンがいた。彼女と会うたびに、彼女と2人の通訳のスケジュールを調整しなければならなかった。簡単な電話での打ち合わせは不可能だった。人事部に相談したところ、技術用語に精通した2人の通訳を見つけるのはほぼ不可能であり、利用可能なときにのみ利用できることがわかった。

さらに調べると、これらは孤立した不便さではなく、より大きなパターンの一部であることが明らかになった。現在でも、進歩によりアクセシビリティが向上しているにもかかわらず、まだ多くの課題と解決すべき領域がある。Nagishでは最近、調査を実施し、聴覚障害者のエンパワーメントにおけるコミュニケーションテクノロジーの影響という報告書を公開した。その報告書では、65%の聴覚障害者が、効果的なコミュニケーションのために、少なくとも1週間に1回、聴覚者の支援が必要であると答えた。そうした支援の依存は、職業的な環境において実際の障壁を生み出し、62%の聴覚障害者の回答者がコミュニケーションの課題がキャリアの決定と特定の役割の追求または進歩を制限したと述べている。

これらの経験と、私が聴覚障害者の個人とのつながりが深まるにつれて、私はNagishの最初のバージョンを構築するようになった。私たちが変化しなかった1つの信念がある。コミュニケーションはアクセシブルでプライベートであるべきである。

Alonと私はプロトタイプを構築し、反応は信じられないほどだった。Nagishがどれほど人生を変えることができるかを実感した。次に、COVID-19が発生し、需要が爆発的に増加し、世界がリモート化し、コミュニケーションのアクセシビリティの欠如が明らかになった。

Nagishの初期の日々はどのようなものだったのか。アクセシビリティの目標と最先端のAIテクノロジーを統合する際に直面した課題について語ってください。

Nagishの初期の日々は、パンデミックの最中だったので、私たちの生活ではあまり何も起こっていなかった。Alonと私は近くに住んでいて、多くの時間をアイデアを出し合い、プロトタイプを作り、最新のテクノロジーを実装することに費やした。私たちは、12時間以上毎日、数ヶ月間、アパートで働いた。

多くの時間を手に入れることができたので、ユーザーと話をし、彼らのニーズを理解することに多くの時間を費やした。私たちは仮定を立てることを避けたかった。まだ会社を作る意図はなかった。私たちを動かしたのは、ユーザーから聞かれた彼らの奮闘と、テクノロジーでそれを解決できる機会があるということだった。

NagishのAIテクノロジーは、聴覚障害者または難聴者と聴覚者の間のコミュニケーションをどのようにして既存のツールではできない方法で橋渡しするのか。

NagishはAIを使用してコミュニケーションのギャップを橋渡しする。私たちのエンジンは、スピーチをテキストに、テキストをスピーチに、手話をテキストに(その逆も同様に)リアルタイムで変換する。つまり、聴覚障害者または難聴者は、電話での会話を簡単に表示し、タイプまたはスピーチで返信できる。一方、相手側の聴覚者は、標準的な電話会話を経験する。以前は、人によるリレーサービスに頼る必要があったが、そこでは第三者が会話全体を書き留めていた。

Nagishでは、リレー運用者は不要で、通訳をスケジュールする必要もなく、誰かが利用可能になるのを待つ必要もない。アプリは、即時性、プライバシー、独立性を電話会話に戻す。従来のリレーサービスでは提供できないものだ。

NagishはAIを使用しているため、すべての種類の電話会話に拡張できる。仕事のミーティング、家族とのおしゃべり、緊急事態、カスタマーサービスへの電話など、アプリは日常生活に簡単に統合されるように設計されている。ユーザーは自分の番号を保持し、リアルタイムのキャプションを取得し、同じアプリを電話会話と対面での会話の両方で使用できる。全体的な体験は、コミュニケーションを自然でシームレスに感じるように設計されている。

あなたのプラットフォームは、標準的なトランスクリプションやキャプションを超えて、より自然で包括的なやり取りを可能にする方法は何ですか。

私たちは、言語は単に言葉だけではなく、文化、アイデンティティ、ニュアンスでもあることを理解している。特に手話は、顔の表情、感情、地域による変異に依存する。会話を機械的なものではなく自然なものにするために、私たちは直接、聴覚障害者の言語学者や手話の専門家と協力している。彼らは、私たちのAIがどのように学び、行動するかを形作るのを助けている。テクノロジーはコミュニティとともに構築され、単にデータでトレーニングされたのではない。

標準的なトランスクリプションツールは、単に「言った言葉はこちらです」というところで止まることが多い。私たちの目標は、実際の会話をサポートすることだ。会話の流れを管理し、キャプションやテキストを読み上げるだけでなく、会話の流れを管理するAIエージェントを実装している。また、Nagishは、会話の流れに最適化されたリアルタイムのキャプションを提供し、調整可能なフォント、スパムフィルタリング、音声メールのトランスクリプション、デバイスでトランスクリプトを保存して後で確認する機能などを備えている。これらすべてが、聴覚者の電話会話と同等の体験を生み出す。

自然言語処理は、単に言葉を捉えるだけでなく、意図とトーンを捉えるためにどのように役立つのか。

自然言語処理と自然言語理解は、Nagishが単に何を言ったかではなく、 何を意味するかを捉えるための核心である。スピーチには、トーン、強調、さらに多くのニュアンスが含まれており、私たちのNLPモデルはそれらのレイヤーを拾うように設計されている。目標は、キャプションを可能な限り自然な会話のように感じることだ。

Nagishは現実世界の状況、医療の電話、仕事のミーティング、さらには緊急事態に向けて構築されている。私たちのモデルは、速いスピーチ、重なり合う声、感情的なニュアンスを扱うようにトレーニングされている。コンテキストの認識は、私たちが人間のトランスクリプターや他のAIツールを上回る理由の1つだ。システムは単に言葉を推測しない。会話の流れを使用して意図を理解する。

Nagishは、従来のアクセシビリティの財政的およびロジスティック的な障壁を解消しながら、雇用主がより包括的な職場環境を作るのをどのように支援していますか。

Nagishでは、従来のアクセシビリティを難しくしていた財政的およびロジスティック的な障壁を解消することで、雇用主がより包括的な職場環境を作ることを支援しています。従来、包括的な職場環境を作るには、スケジュールされた通訳に頼る必要がありましたが、それは日常的なコミュニケーション、たとえば急いで電話することや、即座のミーティング、時間が敏感なタスクに対しては実用的ではなかった。そうした制限は遅延を生み出し、コストを加算し、聴覚障害者や難聴者の従業員を仕事の流れから意図的に除外することがあった。

Nagishは、そのダイナミクスを変えるために取り組んでいる。従業員が独立して、いつでもコミュニケーションをとる能力を提供する。会社がそうした障壁を取り除くとき、人は完全に参加でき、チームは強化され、定着率が向上し、職場はより公平になる。

私たちが最近実施した調査によると、60%以上の聴覚障害者および難聴者の回答者が、コミュニケーションの障壁がキャリアの決定および専門的な成長に影響を与えたと述べている。まだ進歩が必要な重大な課題だ。

私たちは、雇用主が、対応する措置から予防的な包括性への移行を支援する。すべての従業員が独立して、自信を持って貢献できる職場環境を作る。

あなたは聴覚障害者および難聴者のユーザーからどのようなフィードバックを受けており、それは製品の進化にどのように影響していますか。

私たちは、Nagishを、聴覚障害コミュニティとともに構築してきた。以来、興奮、好奇心、まれに、ある程度の躊躇も見られる。コミュニティは、新しいテクノロジーに対して非常に注意深く、質問を投げかける。過去に多くの過大な約束を聞かされてきたからだ。私たちは、完璧さよりも進歩を優先する。完璧さは時間がかかるが、私たちの最終目標は完璧さだ。

コミュニティを優先する姿勢は、私たちが最近の報告書で学んだことと一致する。支援技術を採用した後、ユーザーは、日常生活での独立性の大幅な向上を示した。独立してコミュニケーションをとることができる人の割合は、聴覚障害者の場合、37%から60%に、難聴者の場合、32.9%から63%に上昇した。そうした変化は、私たちが毎日聞くフィードバックと一致する。人々は、コミュニケーションをより簡単にし、より一貫性があり、利用可能なツールを望んでいる。

手話の解釈技術の開発に関する私たちの研究では、人間の通訳や既存のコミュニケーション方法を置き換えるのではなく、別の選択肢、いつでもどこでもアクセシビリティを提供するツールを追加することを目指している。ユーザーのフィードバックは、追加の選択肢がどれほど重要かを強調している。特に、通訳が利用できない状況や、プライバシーと独立性を望む状況においてだ。

私たちは、コミュニティを優先するアプローチを取り、テクノロジーが本物で、正確で、敬意を払ったものであることを確認する。私たちが手話のユーザーとともに構築し続ける限り、これは前向きな一歩と受け取られるだろう。

プライバシーはアクセシビリティ技術における重要な懸念事項です。Nagishは、デリケートな会話をどのように扱い、ユーザーの信頼を維持していますか。

プライバシーは、Nagishの聴覚障害者および難聴者のユーザーをエンパワーメントするという使命において非常に重要である。最初に言及すべきことは、Nagishを使用すると、既存のシステムでは不可能だった、生のトランスクリプターの必要性を排除できることだ。技術的な側面では、Nagishはデザイン上、プライベートである。私たちは電話会話を録音せず、会話の期間を超えてコールトランスクリプトをサーバーに保存しない。さらに、コールデータをトレーニング目的で使用しない。ユーザーがトランスクリプトを保存することを選択した場合、それらは共有クラウドではなく、デバイスのローカルに保存される。エンドツーエンドのセキュアキャプションやトランスクリプトのローカルストレージなどの機能は、健康、雇用、または個人的な関係に関する高度に機密的な会話を保護するためにある。

あなたは、AIがアクセシビリティを10年以内にどのように変えることを予想していますか。テクノロジーが埋めるべきギャップはまだ残っていますか。

デジタルアクセシビリティの1つの大きな問題は、教育と観察可能性の欠如である。エンジニアは、altテキストを実装しておらず、デザイナーはアクセシビリティのない色を選択し、プロダクトマネージャーはKPIのために製品の決定を下している。

AIが製品開発の各側面、エンジニアリング、デザイン、コピーライティングにさらに関与するにつれて、アクセシビリティに対するプロアクティブなアプローチを見ている。AIは、アクセシビリティを、反応的なものから、プロアクティブでアンビエントなものへと変える可能性がある。さまざまな状況、電話会話だけでなく、職場、教室、交通、公共サービスでのコミュニケーションを増強するための新しいツールの波が来る。そうして、障害を持つ人々、特に聴覚障害者や難聴者が、常に手配を求めるのではなく、デフォルトでアクセシビリティが提供されるようになる。

人間の通訳とAIのコラボレーションはどのように進化することを想定していますか。どちらかが最終的に他方を置き換えるのでしょうか、それとも互いに強化しますか。

手話の通訳者は、コミュニティ、無障害、コミュニケーションにとって不可欠な仕事をしています。しかし、現実は、十分な数の通訳者がいないということだ。アメリカでは、約50万人がアメリカ手話を第一言語として使用しているが、認定された通訳者は約1万人しかいない。つまり、医師の訪問、保護者会議、仕事の面接など、多くの状況でアクセシブルなコミュニケーションが不足している。

通訳者が利用可能であっても、スケジュール、コスト、地理的な課題がある。農村部に住む人は、通訳者を手配することがはるかに難しい。そうした遅延は、特に医療や緊急事態では、現実的な結果をもたらす。

AIは、そのギャップを埋めるのに役立つ。私たちが構築しているものは、通訳者を置き換えるものではなく、補完するツールだ。人間の通訳者が利用できないときに、または誰かがプライバシーと独立性を望むときに、介入するものだ。

Google Translateは、専門の翻訳者を置き換えなかったが、日常的なコミュニケーションのギャップを埋めることができた。

コンピュータービジョンと自然言語処理の進歩により、AIは手話をリアルタイムで解釈することを可能にする。そうして、より多くの人が、ビデオ通話、公共のキオスク、緊急サービスを通じて、瞬時にコミュニケーションをとることができるようになる。

素晴らしいインタビュー、詳しく知りたい読者はNagishを訪問してください。

アントワーヌは、Unite.AIの創設パートナーであり、ビジョナリーなリーダーです。彼は、AIとロボティクスの未来を形作り、推進するという、揺るぎない情熱に突き動かされています。シリアルエントレプレナーである彼は、AIは電気と同じように社会に大きな変革をもたらすと信じており、破壊的な技術やAGIの潜在能力について熱く語ることがよくあります。

As a futurist、彼は、これらのイノベーションが私たちの世界をどのように形作るかを探求することに尽力しています。さらに、彼は、Securities.ioの創設者であり、未来を再定義し、全セクターを再構築する最先端技術への投資に焦点を当てたプラットフォームです。