Інтерв’ю
Томер Ахароні, генеральний директор і співзасновник Nagish – Серія інтерв’ю

Томер Ахароні, генеральний директор і співзасновник Nagish, поєднує сильну технічну основу зі своєї роботи інженером-програмістом у Bloomberg, дослідженнями у сфері NLP і IoT у Колумбійському університеті, а також раніше досвід роботи у сфері технологічної розвідки в Ізраїльських оборонних силах, все це рухається його пристрасті до доступності та перетину технологій та комунікації.
Nagish – це платформа зв’язку, що працює за допомогою штучного інтелекту, призначена для того, щоб зробити телефонні дзвінки повністю доступними для людей, які глухі або мають порушення слуху. Даний додаток забезпечує функції реального часу, такі як підписи та текст у мову, а також дозволяє користувачам зберігати свій існуючий номер телефону, підтримувати повну приватність та керувати розмовами за допомогою функцій, таких як персоналізовані словники, збережені транскрипції та безшовна інтеграція пристроїв.
Як ви прийшли до створення Nagish, після роботи у Bloomberg та проведення досліджень у сфері NLP у Колумбійському університеті?
Під час моїх під час навчання у Колумбійському університеті я сидів на занятті одного дня, коли мені прийшов дзвінок. Я не міг відповісти на нього, оскільки це б переривало весь клас, і це змусило мене подумати про те, як можна проводити телефонні дзвінки, якщо ви не можете чути чи говорити? Це призвело до більшої питання: як люди, які глухі або мають порушення слуху, спілкуються по телефону?
Це було 2019 рік, і ми (Алон Езер, мій співзасновник, і я) виявили, що глуха спільнота сильно залежала від тлумачів та асистентів з підписами. Ми подумали, що це безглуздо, тому ми почали виходити на зв’язок з людьми з місцевої глухої спільноти, і те, що ми чули, було досить несподіваним для нас. “Я просто кладу трубку, коли хтось дзвонить мені”, “Я не використовую телефон”, або “Я прошу свого брата дзвонити за мене” – це були лише деякі відповіді, які ми отримали, коли запитали людей, як вони використовують телефон.
Пізніше того літа я проходив стажування як інженер-програміст у Bloomberg. У моєї команди був інший стажер, який був глухим. Кожного разу, коли я хотів зустрітися з ним, мені доводилося узгоджувати графіки з ним та двома тлумачами. Спонтанна розмова “давайте швидко обговоримо це” була просто неможлива. Після розмови з відділом кадрів я дізнався, що знайти цих двох тлумачів, які були знайомі з технічними термінами, було майже неможливо, і що ми використовуємо їх, коли вони доступні, але вони не доступні весь час.
Чим більше ми дізнавалися, тим більше стало ясно, що ці не зручності не були ізольованими випадками, а частиною більшої закономірності. Навіть сьогодні, з прогресом, який покращив доступність, все ще існують багато проблем і сфери, які потрібно вирішити. У Nagish ми нещодавно провели опитування та опублікували звіт Вплив технологій зв’язку на емпавермент глухих та людей з порушеннями слуху, який показав, що 65% глухих осіб сказали, що їм потрібно допомога від слухача щонайменше раз на тиждень, щоб ефективно спілкуватися. Ця залежність створює реальні бар’єри в професійних середовищах, що відображається в тому, що 62% глухих респондентів сказали, що проблеми зі зв’язком вплинули на їхні кар’єрні рішення та обмежили їхню здатність займатися певними ролями.
Ці переживання, а також моя зростаюча зв’язок з глухими людьми, привели мене до створення першої ітерації Nagish. У нас є одна віра, яка не змінилася – зв’язок повинен бути доступним і приватним.
Алон і я створили прототип, і реакція була неймовірною. Ми зрозуміли, наскільки життєво важливим може бути Nagish. Потім почалася пандемія, і потреба вибухнула, оскільки світ перейшов у віддалений режим, і відсутність доступності у способі спілкування людей стала очевидною.
Як ви описали б ранні дні Nagish, і які проблеми ви зустріли при поєднанні цілей доступності з передовими технологіями штучного інтелекту?
Ранні дні Nagish припали на період пандемії, тому в нашому житті нічого іншого не відбувалося, крім роботи. Алон і я жили за одним кварталом один від одного і мали багато часу для мозкових штурмів, прототипування та впровадження останніх технологій. Ми працювали з наших квартир по 12 годин на добу протягом місяців.
Ми мали можливість провести багато часу, спілкуючись з нашими користувачами та розуміючи їхні потреби. Ми не хотіли робити припущення. На цьому етапі ми ще не мали наміру створювати компанію. Те, що давало нам імпульс, було те, що ми чули від користувачів про їхні труднощі та знали, що ми мали можливість вирішити їх за допомогою технологій.
Як технологія Nagish сприяє зв’язкові між глухими або людьми з порушеннями слуху та слухачами у спосіб, який існуючі інструменти не можуть?
Nagish використовує штучний інтелект, щоб зв’язати комунікаційні пробіли. Наші двигуни перетворюють мову у текст, текст у мову, та мову жестів у текст (і навпаки) в реальному часі. Це означає, що глухий або людина з порушеннями слуху може просто побачити, що кажуть під час дзвінка, та відповісти, набираючи текст або говорячи, тоді як слухач на іншому кінці просто переживає стандартний телефонний дзвінок. До появи такого штучного інтелекту люди мали покладатися на людські релейні служби, де третя особа сиділа на лінії та робила всю транскрипцію.
З Nagish немає релей-оператора, немає тлумача, якого потрібно призначати, та немає потреби чекати на когось іншого. Додаток повертає негайність, приватність та незалежність у телефонні дзвінки, чого традиційні релейні служби просто не можуть запропонувати.
Оскільки Nagish працює за допомогою штучного інтелекту, він може масштабуватися до будь-якого типу дзвінка: робочих зустрічей, сімейних перевірок, надзвичайних ситуацій та дзвінків служби підтримки клієнтів. Додаток розроблений для легкої інтеграції у звичайне життя: користувачі можуть зберігати свій номер, отримувати реальні підписи та використовувати той самий додаток для телефонних дзвінків та особистих розмов. Все це розроблено для зменшення тертя та зробити спілкування таким же природнім та безшовним, як тільки можливо.
Як ваша платформа виходить за рамки стандартної транскрипції чи підписів, щоб зробити взаємодію більш природною та інклюзивною?
Ми знаємо, що мова не складається лише з слів, а також культури, ідентичності та нюансів. Це особливо вірно для мов жестів, які покладаються на вираження обличчя, емоції та регіональні варіації. Щоб зробити взаємодію природнішою, ніж механічною, ми співпрацюємо безпосередньо з глухими лінгвістами та експертами з мови жестів. Вони допомагають формувати, як наш штучний інтелект вчиться та поводиться, тому технологія розробляється спільнотою, а не просто тренується на їхніх даних.
Стандартні інструменти транскрипції часто зупиняються на “ось слова, які були сказані”. Наша мета – підтримувати справжню розмову. Ми впроваджуюємо агентів штучного інтелекту, які можуть надавати контекст та керувати потоком дзвінка за межами простих підписів чи читання тексту у мову. Крім того, Nagish пропонує реальні підписи, оптимізовані для потоку розмови, з функціями, такими як налаштовувані шрифти, фільтрація спаму, транскрипція голосової пошти та можливість зберегти та переглянути транскрипції на своєму пристрої, коли ви вибирете. Все це створює еквівалентний досвід тому, який мають слухачі під час телефонних дзвінків.
Яка роль природної мови обробки грає у забезпеченні того, що ваша платформа захоплює не тільки слова, а й намір та тон?
Обробка природної мови та розуміння природної мови знаходяться в основі того, як Nagish захоплює не тільки те, що хтось говорить, а й те, що вони мають на увазі. Мова повна підказок, які додають контекст, таких як тон, акцент та інше, та наші моделі обробки природної мови розроблені для того, щоб захоплювати ці шари, щоб користувачі отримували більше, ніж просто базову транскрипцію. Метою є зробити підписи такими, щоб вони відчувалися якнайближче до природної розмови.
Оскільки Nagish розроблений для реальних ситуацій, таких як медичні дзвінки, робочі зустрічі та навіть надзвичайні ситуації, наші моделі тренуються для обробки швидкої мови, перекривається голосами та емоційного нюансу. Освідомленість контексту є великою причиною, чому ми часто перевершуємо як людських транскриберів, так і інші інструменти штучного інтелекту. Система не просто здогадується про слова; вона використовує потік розмови, щоб зрозуміти намір.
Як Nagish допомагає роботодавцям створювати більш інклюзивні робочі місця, одночасно вирішуючи фінансові та логістичні бар’єри, які довго обмежували доступність?
У Nagish ми допомагаємо роботодавцям створювати більш інклюзивні робочі місця, усуваючи фінансові та логістичні бар’єри, які зробили доступність важкою для масштабування. Традиційно створення доступного робочого місця означало покладатися на призначених тлумачів, які є важливими, але не завжди практичними для щоденного спілкування, такого як швидкі дзвінки, імпровізовані зустрічі чи термінові завдання. Ці обмеження створюють затримки, додають вартість та можуть ненавмисно виключити глухих та людей з порушеннями слуху з потоку роботи.
Nagish працює над зміною цієї динаміки, надавши працівникам можливість спілкуватися незалежно та за запитом. Коли компанії усувають ці бар’єри, люди можуть повністю брати участь, що призводить до сильніших команд, кращого збереження та більш рівноправного робочого місця.
За даними нашого недавнього опитування, понад 60% глухих та людей з порушеннями слуху респондентів сказали, що бар’єри спілкування вплинули на їхні кар’єрні рішення та професійний розвиток. Це серйозна проблема, яка, навіть з усього прогресу, зробленого за останні кілька років, показує, що ще багато роботи потрібно зробити.
Ми дозволяємо роботодавцям перейти від реактивних адаптацій до проактивної інклюзивності, створюючи робочі місця, де кожен працівник може внесок незалежно та з увереністю.
Який відгук ви отримали від глухих та людей з порушеннями слуху, і як це вплинуло на розвиток продукту?
Ми створили Nagish разом із глухою спільнотою з дня заснування, і з тих пір ми отримували суміш захоплення, цікавості та в рідких випадках деякої вагання, що саме так і повинно бути. Глуха спільнота дуже уважна та допитлива щодо нової технології, і з хорошою причиною. Вони чули так багато обіцянок у минулому, і ми намагаємося уникнути цього. Ми ставимо прогрес над досконалістю, що займає час – але наша кінцева мета – досконалість.
Цей підхід, орієнтований на спільноту, підтримується тим, що ми дізналися з нашого недавнього звіту. Після впровадження допоміжної технології користувачі показали значне збільшення щоденного незалежності: кількість людей, які могли спілкуватися незалежно, зросла з 37% до 60% для глухих користувачів, та з 32,9% до 63% для людей з порушеннями слуху. Ця зміна відображається у відгуках, які ми чуємо щодня: люди хочуть інструменти, які роблять спілкування легшим, більш послідовним та доступним у моменти, коли тлумачі недоступні чи коли вони віддають перевагу приватності.
Коли мова йде про наші дослідження щодо створення кращих технологій інтерпретації мови жестів, наша мета полягає не в тому, щоб замінити людських тлумачів чи існуючі методи спілкування, а в тому, щоб додати ще один варіант, інструмент, який робить доступність більш послідовною та доступною будь-де, будь-кому. Відгук від користувачів підкреслив, наскільки важливим є “додатковий варіант”, особливо в моменти, коли тлумач недоступний чи коли хтось просто хоче приватності та незалежності. Для багатьох це створює ситуації, коли спілкування інакше відчувалося б незручним, затриманим або недосяжним.
Ми приймаємо підхід, орієнтований на спільноту, щоб забезпечити, щоб технологія відчувалася аутентичною, точною та поважною.只要 ми продовжимо будувати разом із користувачами мови жестів, ми вважаємо, що це буде сприйнято як крок вперед.
Приватність є ключовим питанням у технологіях доступності – як Nagish обробляє чутливі розмови та підтримує довіру користувачів?
Приватність є критичною для місії Nagish щодо емпаверменту глухих та людей з порушеннями слуху. Перше, що потрібно згадати, це те, що з Nagish ви вже можете усунути потребу в живому транскрибері, тому вже є відчуття приватності, якого раніше не було.
З технічної сторони Nagish розроблений з приватністю за замовчуванням. Ми не записуємо дзвінки та ніколи не зберігаємо транскрипції дзвінків на наших серверах після закінчення дзвінка. Ми також не використовуємо жодних даних дзвінків для навчання. Коли користувачі вирішують зберегти транскрипції, вони зберігаються локально на їхньому пристрої, а не в спільному хмарі. Функції, такі як безпечне підписування з кінцем до кінця та локальне зберігання транскрипцій, розроблені для захисту високочутливих розмов – чи то про здоров’я, працевлаштування чи особисті відносини.
Як ви бачите майбутнє штучного інтелекту у сфері доступності протягом наступного десятиліття, і які пробіли все ще залишаються для технологій, щоб заповнити?
Однією з найбільших проблем цифрової доступності є відсутність освіти та спостереження: інженери не реалізовують альтернативний текст, дизайнери вибирають недоступні кольори, оскільки вони виглядають добре, а менеджери продукту приймають рішення про продукт для показників ефективності.
Оскільки штучний інтелект ставає все більш залученим до кожного аспекту розробки продукту, від інженерії до дизайну та копірайтингу, ми бачимо проактивний підхід до доступності. Штучний інтелект міг би змінити доступність з чогось реактивного та “зашитого” на щось проактивне та амб’єнтне. Ми також побачимо нову хвилю інструментів, які будуть доповнювати спілкування в різних умовах – не тільки дзвінки, а й робочі місця, класи, транспорт та публічні послуги – так, щоб люди з порушеннями та глухі люди не мали постійно запитувати адаптації; вони просто будуть там за замовчуванням.
Як ви бачите розвиток співробітництва між людськими тлумачами та штучним інтелектом – чи один колись замінить інший, чи вони посилюють один одного?
Тлумачі мови жестів роблять неймовірну роботу. Вони є важливими для спільноти, доступності та спілкування. Але реальність така, що просто немає достатньо тлумачів. У США, наприклад, понад 500 000 людей використовують американську мову жестів як свою основну мову, та лише близько 10 000 сертифікованих тлумачів. Це означає, що величезна кількість ситуацій – від відвідування лікаря, батьківських зустрічей, співбесід, та інше – часто не мають доступного спілкування.
Штучний інтелект може допомогти звузити цю прогалину. Те, що ми будемо створювати, не призначено для заміни тлумачів, а для доповнення їхньої роботи та зробити доступність більш масштабованою. Подумайте про це як інструмент, який вступає в дію, коли людський тлумач недоступний.
Google Translate не замінив професійних перекладачів, але зробив можливим зв’язок комунікаційних пробілів у щоденному житті.
З прогресом у сфері комп’ютерного зору та обробки природної мови штучний інтелект має потенціал почати інтерпретувати мову жестів у реальному часі. Це означає, що більше людей можуть спілкуватися миттєво, чи то через відеодзвінок, публічну кіоск чи службу надзвичайних ситуацій.
Дякуємо за велике інтерв’ю, читачам, які бажають дізнатися більше, слід відвідати Nagish.












