Phỏng vấn
Tomer Aharoni, Giám đốc điều hành và Đồng sáng lập của Nagish – Loạt phỏng vấn

Tomer Aharoni, Giám đốc điều hành và Đồng sáng lập của Nagish, đã kết hợp nền tảng kỹ thuật vững chắc từ công việc của mình với tư cách là một kỹ sư phần mềm tại Bloomberg, nghiên cứu về NLP và IoT tại Đại học Columbia, và kinh nghiệm trước đó trong các vai trò tình báo công nghệ trong Lực lượng Phòng vệ Israel, tất cả đều được thúc đẩy bởi niềm đam mê về khả năng tiếp cận và sự giao thoa giữa công nghệ và giao tiếp.
Nagish là một nền tảng giao tiếp được hỗ trợ bởi AI, được thiết kế để làm cho các cuộc gọi điện thoại hoàn toàn có thể tiếp cận được cho những người điếc hoặc khó nghe. Ứng dụng cung cấp khả năng chú thích thời gian thực và văn bản thành giọng nói trong khi cho phép người dùng giữ số điện thoại hiện có, duy trì quyền riêng tư hoàn toàn và quản lý các cuộc trò chuyện thông qua các tính năng như từ điển được cá nhân hóa, bản ghi được lưu và tích hợp thiết bị liền mạch.
Bạn đã làm việc tại Bloomberg và thực hiện nghiên cứu NLP tại Columbia, điều gì hoặc nhận thức nào đã khiến bạn quyết định tận dụng kinh nghiệm đó để tạo ra Nagish?
Trong thời gian học đại học tại Columbia, tôi đã nhận được một cuộc gọi điện thoại trong lớp học. Tôi không thể trả lời vì điều đó sẽ làm gián đoạn toàn bộ lớp học, và điều đó đã khiến tôi suy nghĩ về cách thực hiện một cuộc gọi điện thoại nếu bạn không thể nghe hoặc nói? Điều đó dẫn đến một câu hỏi lớn hơn: làm thế nào những người điếc và khó nghe giao tiếp trên điện thoại?
Đó là năm 2019, và chúng tôi (Alon Ezer, người đồng sáng lập và tôi) đã phát hiện ra rằng cộng đồng điếc phụ thuộc rất nhiều vào các phiên dịch viên và trợ lý chú thích. Chúng tôi nghĩ rằng điều đó thật điên rồ, vì vậy chúng tôi bắt đầu liên hệ với những người từ cộng đồng điếc địa phương, và những gì chúng tôi nghe được thật sự gây ngạc nhiên cho chúng tôi. “Tôi chỉ tắt máy khi có ai đó gọi cho tôi”, “Tôi không sử dụng điện thoại”, hoặc “Tôi yêu cầu anh trai của tôi gọi cho tôi” chỉ là một số câu trả lời chúng tôi nhận được khi hỏi mọi người về cách họ sử dụng điện thoại.
Sau đó trong mùa hè đó, tôi đã thực tập với tư cách là một kỹ sư phần mềm tại Bloomberg. Trong nhóm của tôi, chúng tôi có một thực tập sinh khác là điếc. Mỗi khi tôi muốn gặp gỡ cô ấy, tôi phải sắp xếp lịch trình với cô ấy và hai phiên dịch viên. Việc “nhảy vào một cuộc gọi nhanh để giải quyết điều này” là điều không thể.
Càng tìm hiểu, chúng tôi nhận ra rằng những điều này không phải là những bất tiện bị cô lập mà là một phần của một mẫu lớn hơn. Ngay cả bây giờ, với những tiến bộ đã cải thiện khả năng tiếp cận, vẫn còn nhiều thách thức và lĩnh vực cần được giải quyết. Tại Nagish, chúng tôi gần đây đã thực hiện một cuộc khảo sát và phát hành một báo cáo, Tác động của Công nghệ Truyền thông trong việc trao quyền cho người điếc và khó nghe, cho thấy 65% người điếc cho biết họ cần sự giúp đỡ từ một người nghe ít nhất một lần một tuần để giao tiếp hiệu quả. Sự phụ thuộc đó tạo ra những rào cản thực sự trong môi trường chuyên nghiệp, được phản ánh trong thực tế là 62% người điếc cho biết thách thức giao tiếp đã ảnh hưởng đến quyết định nghề nghiệp và hạn chế khả năng theo đuổi hoặc thăng tiến trong một số vai trò.
Các trải nghiệm này, cùng với việc kết nối ngày càng tăng với các cá nhân điếc, đã dẫn tôi đến việc xây dựng phiên bản đầu tiên của Nagish. Chúng tôi có một niềm tin duy nhất mà không thay đổi – giao tiếp nên được tiếp cận và riêng tư.
Alon và tôi đã xây dựng một nguyên mẫu, và phản hồi là tuyệt vời. Chúng tôi nhận ra rằng Nagish có thể thay đổi cuộc sống như thế nào. Sau đó, COVID xảy ra, và nhu cầu bùng nổ khi thế giới chuyển sang làm việc từ xa, và sự thiếu khả năng tiếp cận trong cách mọi người giao tiếp thực sự trở nên rõ ràng.
Bạn có thể chia sẻ những ngày đầu của Nagish như thế nào, và những thách thức bạn đối mặt khi kết hợp mục tiêu khả năng tiếp cận với công nghệ AI tiên tiến?
Những ngày đầu của Nagish là trong thời kỳ đại dịch, vì vậy không có nhiều điều xảy ra trong cuộc sống của chúng tôi ngoài công việc. Alon và tôi sống gần nhau và có rất nhiều thời gian để suy nghĩ, tạo mẫu và triển khai các công nghệ mới nhất. Chúng tôi làm việc từ các căn hộ của mình trong hơn 12 giờ mỗi ngày trong nhiều tháng.
Có nhiều thời gian như vậy cho phép chúng tôi dành rất nhiều thời gian để nói chuyện với người dùng và hiểu nhu cầu của họ. Chúng tôi không muốn đưa ra những giả định. Tại thời điểm này, chúng tôi vẫn không có ý định biến nó thành một công ty. Điều gì thúc đẩy chúng tôi là nghe từ người dùng về những khó khăn của họ và biết rằng chúng tôi có cơ hội giải quyết chúng bằng công nghệ.
Làm thế nào công nghệ AI của Nagish bắc cầu giao tiếp giữa các cá nhân điếc hoặc khó nghe và thế giới nghe thấy theo những cách mà các công cụ hiện có không thể?
Nagish sử dụng AI để bắc cầu giao tiếp. Các động cơ của chúng tôi chuyển đổi giọng nói thành văn bản, văn bản trở lại thành giọng nói và ngôn ngữ ký hiệu thành văn bản (và ngược lại) trong thời gian thực. Điều đó có nghĩa là một người điếc hoặc khó nghe có thể đơn giản xem những gì đang được nói trong một cuộc gọi và trả lời bằng cách nhập văn bản hoặc nói, trong khi người nghe ở đầu bên kia chỉ trải qua một cuộc gọi điện thoại tiêu chuẩn. Trước khi loại AI này tồn tại, mọi người phải dựa vào các dịch vụ chuyển tiếp do con người vận hành, nơi một người thứ ba ngồi trên đường dây và thực hiện tất cả việc chuyển录.
Với Nagish, không có người vận hành chuyển tiếp, không có người phiên dịch để sắp xếp và không có thời gian chờ đợi cho ai đó khác có sẵn. Ứng dụng đưa tính tức thời, riêng tư và độc lập trở lại vào các cuộc gọi điện thoại, điều mà các dịch vụ chuyển tiếp truyền thống không thể cung cấp.
Vì Nagish được hỗ trợ bởi AI, nó có thể mở rộng đến mọi loại cuộc gọi: các cuộc họp tại nơi làm việc, kiểm tra gia đình, các trường hợp khẩn cấp và các cuộc gọi dịch vụ khách hàng. Ứng dụng được thiết kế để tích hợp dễ dàng vào cuộc sống hàng ngày: người dùng có thể giữ số điện thoại của mình, nhận chú thích thời gian thực và sử dụng cùng một ứng dụng trên các cuộc gọi điện thoại và trong các cuộc trò chuyện trực tiếp. Toàn bộ trải nghiệm được thiết kế để giảm ma sát và làm cho giao tiếp cảm giác tự nhiên và liền mạch nhất có thể.
Ứng dụng của bạn vượt qua việc chuyển录 hoặc chú thích tiêu chuẩn như thế nào để làm cho các tương tác trở nên tự nhiên và bao gồm hơn?
Chúng tôi biết rằng ngôn ngữ không chỉ là từ ngữ, mà còn là văn hóa, bản sắc và sắc thái. Điều đó đặc biệt đúng với ngôn ngữ ký hiệu, phụ thuộc vào biểu cảm khuôn mặt, cảm xúc và biến thể khu vực. Để làm cho các tương tác cảm giác tự nhiên thay vì cơ học, chúng tôi cộng tác trực tiếp với các nhà ngôn ngữ học điếc và các chuyên gia ngôn ngữ ký hiệu. Họ giúp định hình cách AI của chúng tôi học hỏi và hành xử, vì vậy công nghệ được xây dựng với cộng đồng, không chỉ được đào tạo trên dữ liệu của họ.
Các công cụ chuyển录 tiêu chuẩn thường dừng lại ở “đây là những từ đã được nói”. Mục tiêu của chúng tôi là hỗ trợ một cuộc trò chuyện thực sự. Chúng tôi đang triển khai các Đại lý AI có thể cung cấp ngữ cảnh và quản lý luồng cuộc gọi ngoài việc chỉ cung cấp chú thích hoặc đọc văn bản thành giọng nói. Ngoài ra, Nagish cung cấp chú thích thời gian thực được tối ưu hóa cho luồng trò chuyện, với các tính năng như phông chữ điều chỉnh, lọc thư rác, chuyển录 thư thoại và khả năng lưu và xem lại bản ghi trên thiết bị của bạn khi bạn chọn. Tất cả điều đó tạo ra một trải nghiệm tương đương với trải nghiệm mà những người nghe có trên các cuộc gọi điện thoại.
Vai trò của xử lý ngôn ngữ tự nhiên trong việc đảm bảo rằng nền tảng của bạn không chỉ bắt được từ ngữ mà còn bắt được ý định và giọng điệu?
Xử lý ngôn ngữ tự nhiên và hiểu ngôn ngữ tự nhiên là cốt lõi của cách Nagish bắt không chỉ những gì ai đó nói, mà còn những gì họ có ý định nói. Giọng nói đầy rẫy những tín hiệu bổ sung thêm ngữ cảnh, như giọng điệu, nhấn mạnh và nhiều hơn nữa, và các mô hình NLP của chúng tôi được thiết kế để bắt được những lớp đó để người dùng nhận được nhiều hơn một bản chuyển录 cơ bản. Mục tiêu là làm cho chú thích cảm giác gần như một cuộc trò chuyện tự nhiên nhất có thể.
Vì Nagish được xây dựng cho các tình huống thế giới thực, như các cuộc gọi y tế, các cuộc họp tại nơi làm việc và thậm chí các trường hợp khẩn cấp, các mô hình của chúng tôi được đào tạo để xử lý giọng nói nhanh, giọng nói chồng chéo và sắc thái cảm xúc. Nhận thức ngữ cảnh là một lý do lớn chúng tôi thường vượt trội so với cả người chuyển录 và các công cụ AI khác. Hệ thống không chỉ đoán từ; nó sử dụng luồng cuộc trò chuyện để hiểu ý định.
Làm thế nào Nagish giúp các nhà tuyển dụng xây dựng các môi trường làm việc bao gồm hơn trong khi giải quyết các rào cản tài chính và hậu cần đã hạn chế khả năng tiếp cận trong một thời gian dài?
Tại Nagish, chúng tôi đang giúp các nhà tuyển dụng xây dựng các môi trường làm việc bao gồm hơn bằng cách loại bỏ các rào cản tài chính và hậu cần đã làm cho khả năng tiếp cận khó mở rộng. Thông thường, việc tạo ra một môi trường làm việc có thể tiếp cận được có nghĩa là dựa vào các phiên dịch viên được lên lịch, điều này là cần thiết nhưng không phải lúc nào cũng thực tế cho giao tiếp hàng ngày, như các cuộc gọi nhanh, các cuộc họp không chính thức hoặc các nhiệm vụ nhạy cảm về thời gian. Những hạn chế này tạo ra sự chậm trễ, tăng chi phí và có thể vô tình loại bỏ các nhân viên điếc và khó nghe khỏi luồng công việc.
Nagish đang làm việc để thay đổi động lực đó, đưa cho nhân viên khả năng giao tiếp độc lập và theo nhu cầu. Khi các công ty loại bỏ những rào cản đó, mọi người có thể tham gia đầy đủ, dẫn đến các đội mạnh mẽ hơn, giữ chân nhân viên tốt hơn và một môi trường làm việc công bằng hơn.
Theo một cuộc khảo sát gần đây mà chúng tôi tiến hành, hơn 60% người điếc và khó nghe cho biết rào cản giao tiếp đã ảnh hưởng đến quyết định nghề nghiệp và sự phát triển chuyên môn của họ. Đó là một thách thức nghiêm trọng mà, ngay cả với tất cả tiến bộ đã đạt được trong những năm qua, cho thấy vẫn còn rất nhiều công việc cần được thực hiện.
Chúng tôi cho phép các nhà tuyển dụng chuyển từ các điều khoản thích ứng phản ứng sang các điều khoản bao gồm chủ động, tạo ra các môi trường làm việc nơi mọi nhân viên có thể đóng góp độc lập và tự tin.
Loại phản hồi nào bạn đã nhận được từ người dùng điếc và khó nghe, và nó ảnh hưởng đến sự tiến hóa của sản phẩm như thế nào?
Chúng tôi đã xây dựng Nagish với cộng đồng điếc từ ngày đầu tiên, và kể từ đó, chúng tôi đã nhận được sự kết hợp của sự phấn khích, tò mò và trong một số trường hợp hiếm hoi, một số do dự, điều mà hoàn toàn hợp lý. Cộng đồng điếc rất cẩn thận và tò mò về công nghệ mới, và với lý do chính đáng. Họ đã nghe rất nhiều lời hứa hẹn trong quá khứ, và chúng tôi đang cố gắng tránh điều đó. Chúng tôi đang ưu tiên tiến bộ hơn sự hoàn hảo, điều này mất thời gian – nhưng mục tiêu cuối cùng của chúng tôi là sự hoàn hảo.
Tư duy cộng đồng này được củng cố bởi những gì chúng tôi đã học được trong báo cáo gần đây của mình. Sau khi áp dụng công nghệ hỗ trợ, người dùng đã cho thấy sự gia tăng đáng kể về sự độc lập hàng ngày: số người có thể giao tiếp độc lập đã tăng từ 37% lên 60% đối với người dùng điếc, và từ 32,9% lên 63% đối với người dùng khó nghe. Sự thay đổi đó phản ánh phản hồi mà chúng tôi nghe thấy mỗi ngày: mọi người muốn các công cụ làm cho giao tiếp dễ dàng hơn, nhất quán hơn và có sẵn trong những khoảnh khắc khi các phiên dịch viên không có sẵn hoặc khi họ thích sự riêng tư.
Khi nói đến nghiên cứu của chúng tôi về việc tạo ra các công nghệ giải thích ngôn ngữ ký hiệu tốt hơn, mục tiêu của chúng tôi không phải là thay thế các phiên dịch viên con người hoặc các phương pháp giao tiếp hiện có, mà là thêm một lựa chọn, một công cụ làm cho khả năng tiếp cận trở nên nhất quán và có sẵn mọi lúc, mọi nơi. Phản hồi từ người dùng đã củng cố tầm quan trọng của một “lựa chọn bổ sung” như vậy, đặc biệt là trong những khoảnh khắc khi một phiên dịch viên không có sẵn hoặc khi ai đó chỉ muốn sự riêng tư và độc lập. Đối với nhiều người, nó tạo ra những tình huống mà giao tiếp sẽ cảm thấy không tiện lợi, chậm trễ hoặc không thể tiếp cận.
Chúng tôi đang tiếp cận công nghệ này với tư duy cộng đồng đầu tiên để đảm bảo rằng công nghệ cảm giác chân thực, chính xác và tôn trọng. Miễn là chúng tôi tiếp tục xây dựng cùng với người dùng ngôn ngữ ký hiệu, chúng tôi tin rằng điều này sẽ được coi là một bước tiến mạnh mẽ.
Quyền riêng tư là một mối quan tâm chính trong công nghệ khả năng tiếp cận — làm thế nào Nagish xử lý các cuộc trò chuyện nhạy cảm và duy trì niềm tin của người dùng?
Quyền riêng tư là điều quan trọng hàng đầu trong sứ mệnh của Nagish nhằm trao quyền cho người dùng điếc và khó nghe. Điều đầu tiên cần đề cập là với Nagish, bạn đã có thể loại bỏ nhu cầu về một người chuyển录 trực tiếp, vì vậy ngay từ đầu, đã có một cảm giác về quyền riêng tư mà trước đây không thể có được.
Về mặt kỹ thuật, Nagish được thiết kế để riêng tư. Chúng tôi không ghi lại các cuộc gọi và không bao giờ lưu trữ bản ghi cuộc gọi trên máy chủ của chúng tôi ngoài thời gian của một cuộc gọi. Chúng tôi cũng không sử dụng bất kỳ dữ liệu cuộc gọi nào cho mục đích đào tạo. Khi người dùng chọn lưu bản ghi, chúng được lưu trữ cục bộ trên thiết bị của họ chứ không phải trong một đám mây chung. Các tính năng như chú thích được mã hóa từ đầu đến cuối và lưu trữ bản ghi cục bộ được thiết kế để bảo vệ các cuộc trò chuyện nhạy cảm — cho dù đó là về sức khỏe, việc làm hoặc mối quan hệ cá nhân.
Bạn nhìn thấy AI thay đổi khả năng tiếp cận như thế nào trong thập kỷ tới, và những khoảng trống nào vẫn còn để công nghệ lấp đầy?
Một trong những vấn đề lớn nhất với khả năng tiếp cận kỹ thuật số là thiếu giáo dục và quan sát: Các kỹ sư không thực hiện alt-text, các nhà thiết kế chọn màu không thể tiếp cận vì chúng trông đẹp, và các nhà quản lý sản phẩm đưa ra quyết định sản phẩm dựa trên KPI.
Khi AI ngày càng tham gia vào từng khía cạnh của phát triển sản phẩm, từ kỹ thuật đến thiết kế đến viết nội dung, chúng tôi đang thấy một cách tiếp cận chủ động đối với khả năng tiếp cận. AI có thể thay đổi khả năng tiếp cận từ một điều gì đó phản ứng và “vá” thành một điều gì đó chủ động và âm thầm. Chúng tôi cũng sẽ thấy một làn sóng các công cụ mới sẽ tăng cường giao tiếp trong các môi trường khác nhau – không chỉ các cuộc gọi, mà còn tại nơi làm việc, trong lớp học, giao thông và dịch vụ công — để những người khuyết tật, và đặc biệt là người điếc và khó nghe, không phải liên tục yêu cầu các điều khoản; họ sẽ chỉ có sẵn theo mặc định.
Bạn hình dung sự hợp tác giữa các phiên dịch viên con người và AI sẽ phát triển như thế nào — liệu một sẽ thay thế cái kia, hay chúng sẽ củng cố lẫn nhau?
Các phiên dịch viên ngôn ngữ ký hiệu thực hiện công việc đáng kinh ngạc. Họ là điều cần thiết cho cộng đồng, khả năng tiếp cận và giao tiếp. Nhưng thực tế là, không có đủ người như vậy. Tại Hoa Kỳ, ví dụ, có hơn 500.000 người sử dụng Ngôn ngữ Ký hiệu Mỹ như ngôn ngữ chính của họ, và chỉ có khoảng 10.000 phiên dịch viên được chứng nhận. Điều đó có nghĩa là một số lượng lớn các tình huống – từ các chuyến thăm bác sĩ, các cuộc họp giữa phụ huynh và giáo viên, các cuộc phỏng vấn việc làm và nhiều hơn nữa – thường thiếu giao tiếp có thể tiếp cận được.
Ngay cả khi các phiên dịch viên có sẵn, cũng có những thách thức xung quanh việc sắp xếp, chi phí và địa lý. Một người sống ở khu vực nông thôn sẽ gặp khó khăn hơn nhiều trong việc có được một phiên dịch viên, và sự chậm trễ đó có thể có những hậu quả thực sự, đặc biệt là trong các môi trường chăm sóc sức khỏe hoặc khẩn cấp.
AI có thể giúp bắc cầu khoảng trống đó. Điều chúng tôi xây dựng không nhằm mục đích thay thế các phiên dịch viên, mà là bổ sung công việc của họ và làm cho khả năng tiếp cận trở nên mở rộng hơn. Hãy nghĩ về nó như một công cụ can thiệp khi một phiên dịch viên con người không có sẵn.
Google Translate không thay thế các biên dịch viên chuyên nghiệp, nhưng nó đã làm cho việc bắc cầu giao tiếp hàng ngày trở nên khả thi.
Với những tiến bộ trong tầm nhìn máy tính và xử lý ngôn ngữ tự nhiên, AI nắm giữ lời hứa có thể bắt đầu giải thích ngôn ngữ ký hiệu trong thời gian thực. Điều này có nghĩa là nhiều người hơn có thể giao tiếp ngay lập tức, cho dù đó là thông qua một cuộc gọi video, một ki-ốt công cộng hay một dịch vụ khẩn cấp.
Cảm ơn vì cuộc phỏng vấn tuyệt vời, những người đọc muốn tìm hiểu thêm nên truy cập Nagish.












