інтерв'ю

Амр Нур-Елдін, віце-президент з технологій LXT – Серія інтерв’ю

оновлений on Жовтень 12, 2023

Амр Нур-Елдін, віце-президент із технологій компанії LXT. Амр є доктором філософії. вчений-дослідник із понад 16-річним досвідом роботи в галузі обробки мови/аудіо та машинного навчання в контексті автоматичного розпізнавання мови (ASR), з особливим фокусом і практичним досвідом останніх років щодо методів глибокого навчання для потокового передавання -до кінця розпізнавання мови.

LXT є новим лідером у сфері навчання даних штучного інтелекту для створення інтелектуальних технологій для глобальних організацій. У партнерстві з міжнародною мережею співавторів LXT збирає та коментує дані різними способами зі швидкістю, масштабом і гнучкістю, які потрібні підприємству. Їхня глобальна експертиза охоплює понад 145 країн і понад 1000 мов.

Ви отримали ступінь доктора філософії з обробки сигналів в Університеті Макгілла, що спочатку зацікавило вас у цій галузі?

Я завжди хотів вивчати інженерію, мені дуже подобалися природничі науки загалом, але більше мене тягнули математика та фізика. Я завжди намагався з’ясувати, як працює природа і як застосувати це розуміння для створення технологій. Після закінчення середньої школи я мав можливість піти на медицину та інші професії, але спеціально вибрав інженерію, оскільки вона являла собою ідеальне поєднання, на мій погляд, теорії та застосування у двох найближчих для мене сферах: математиці та фізиці. І коли я вибрав це, було багато потенційних шляхів – механічний, цивільний тощо. Але я спеціально обрав електротехніку, тому що вона найближча і найскладніша, на мій погляд, до типу завдань з математики та фізики, які я завжди вважав складними і, отже, отримували більше задоволення, а також є основою сучасних технологій, які завжди рухали мене.

В рамках електротехніки є різні спеціалізації на вибір, які, як правило, підпадають під дві групи: телекомунікації та обробка сигналів, а також енергетика та електротехніка. Коли настав час вибирати між цими двома способами, я вибрав телекомунікації та обробку сигналів, оскільки це ближче до того, як ми описуємо природу за допомогою фізики та рівнянь. Ви говорите про сигнали, будь то аудіо, зображення чи відео; розуміння того, як ми спілкуємося і що сприймають наші органи чуття, а також як математично представити цю інформацію таким чином, щоб ми могли використовувати ці знання для створення та вдосконалення технологій.

Чи могли б ви обговорити свої дослідження в Університеті Макгілла щодо інформаційно-теоретичних аспектів штучного розширення смуги пропускання (BWE)?

Після того, як я отримав ступінь бакалавра, я хотів продовжувати навчатися в галузі обробки сигналів. Після одного року вивчення фотоніки в рамках ступеня магістра з фізики я вирішив повернутися до інженерії, щоб отримати ступінь магістра з обробки звукових і мовних сигналів, зосередившись на розпізнаванні мовлення. Коли прийшов час робити докторську дисертацію, я хотів трохи розширити свою сферу діяльності на загальну обробку звуку та мови, а також на тісно пов’язані галузі машинного навчання та теорії інформації, а не просто зосереджуватися на програмі розпізнавання мови.

Засобом для моєї докторської дисертації було розширення смуги пропускання вузькосмугового мовлення. Вузькосмугова мова відноситься до мови звичайної телефонії. Частотний вміст мови досягає приблизно 20 кілогерц, але більша частина інформаційного вмісту зосереджена лише на частоті 4 кілогерц. Розширення смуги пропускання означає штучне розширення мовного вмісту від 3.4 кілогерц, що є верхньою межею частоти у звичайній телефонії, до вище цієї частоти, до восьми кілогерц або більше. Щоб краще реконструювати цей відсутній високочастотний вміст, враховуючи лише доступний вузькосмуговий вміст, потрібно спочатку кількісно визначити взаємну інформацію між мовним вмістом у двох діапазонах частот, а потім використовувати цю інформацію для навчання моделі, яка вивчає цю спільну інформацію; модель, яка після навчання може бути використана для генерування високосмугового вмісту з урахуванням лише вузькосмугового мовлення та того, що модель дізналася про зв’язок між доступним вузькосмуговим мовленням і відсутнім високосмуговим вмістом. Кількісна оцінка та представлення цієї спільної «взаємної інформації» — це те, де входить теорія інформації. Теорія інформації — це дослідження кількісного визначення та представлення інформації в будь-якому сигналі. Отже, моє дослідження стосувалося включення теорії інформації для покращення штучного розширення смуги пропускання мови. Таким чином, мій доктор був скоріше міждисциплінарним дослідженням, де я поєднував обробку сигналів з теорією інформації та машинним навчанням.

Ви понад 16 років працювали головним спеціалістом із ораторії в Nuance Communications, яка тепер є частиною корпорації Майкрософт. Що ви зробили з цього досвіду?

З моєї точки зору, найважливішою перевагою було те, що я завжди працював над найсучаснішими, передовими методами обробки сигналів і машинного навчання, а також застосовував цю технологію в реальних програмах. Я отримав можливість застосувати ці методи до продуктів розмовного штучного інтелекту в кількох доменах. Ці сфери варіюються від підприємств до охорони здоров’я, автомобілебудування та мобільності тощо. Деякі з конкретних програм включали віртуальних помічників, інтерактивну голосову відповідь, голосову пошту в текст та інші, де правильне представлення та транскрипція є критичними, наприклад, у сфері охорони здоров’я під час взаємодії лікаря та пацієнта. Протягом цих 16 років мені пощастило на власні очі спостерігати та бути частиною еволюції розмовного штучного інтелекту, починаючи з часів статистичного моделювання за допомогою прихованих марковських моделей, через поступове захоплення глибокого навчання й до теперішнього часу, коли глибоке навчання поширюється та домінує майже в усіх аспекти ШІ, включаючи генеративний ШІ, а також традиційний інтелектуальний або дискримінаційний ШІ. Іншим ключовим висновком із цього досвіду є вирішальна роль, яку дані відіграють через кількість і якість як ключовий фактор можливостей і продуктивності моделі ШІ.

Ви опублікували десяток робіт, у тому числі в таких відомих виданнях, як IEEE. На вашу думку, яка найбільш новаторська стаття, яку ви опублікували, і чому вона була важливою?

Найвпливовішою, за кількістю цитувань, згідно з Google Scholar, була б стаття 2008 року під назвою «Розширення пропускної здатності вузькосмугового мовлення на основі мел-частотного кепстрального коефіцієнта”. На високому рівні ця стаття зосереджена на тому, як реконструювати мовленнєвий вміст за допомогою представлення ознак, яке широко використовується в галузі автоматичного розпізнавання мовлення (ASR), мел-частотних кепстральних коефіцієнтів.

Проте, на мій погляд, більш інноваційною є стаття з другим за кількістю цитувань, стаття 2011 року під назвою «Апроксимація на основі пам’яті структури моделі суміші Гауса для розширення пропускної здатності вузькосмугового мовлення“. У цій роботі я запропонував нову техніку статистичного моделювання, яка включає часову інформацію в мовленні. Перевага цього методу полягає в тому, що він дозволяє моделювати довгострокову інформацію в мовленні з мінімальною додатковою складністю та таким чином, що все ще дозволяє генерувати широкосмугову мову в потоковому режимі або в режимі реального часу.

У червні 2023 ви були прийнятий на посаду віце-президента з технологій у LXT, чим вас привабила ця посада?

Протягом усього свого академічного та професійного досвіду до LXT я завжди працював безпосередньо з даними. Насправді, як я зазначав раніше, одним із ключових висновків для мене з моєї роботи з наукою про мовлення та машинним навчанням була вирішальна роль даних у життєвому циклі моделі ШІ. Наявність достатньої кількості якісних даних у правильному форматі було і продовжує залишатися життєво важливим для успіху найсучаснішого штучного інтелекту на основі глибокого навчання. Таким чином, коли я опинився на етапі своєї кар’єри, коли шукав середовище, схоже на стартап, де я міг би вчитися, розширювати свої навички, а також використовувати свій досвід мови та ШІ, щоб мати найбільший вплив, мені пощастило мати можливість приєднатися до LXT. Це ідеально підходило. LXT не тільки є постачальником даних штучного інтелекту, який розвивається вражаючими та постійними темпами, але я також бачу, що він знаходиться на ідеальному етапі з точки зору зростання ноу-хау ШІ, а також розміру та різноманітності клієнтів, а отже, ШІ. і типи даних AI. Я насолоджувався можливістю приєднатися та допомогти в її розвитку; мати великий вплив, представивши точку зору кінцевого користувача даних після того, як усі ці роки працював спеціалістом із обробки даних ШІ.

Як виглядає ваш середній день у LXT?

Мій звичайний день починається з вивчення останніх досліджень на ту чи іншу тему, яка останнім часом зосереджена навколо генеративного ШІ, і того, як ми можемо застосувати це до потреб наших клієнтів. На щастя, у мене є чудова команда, яка вміє створювати й адаптувати рішення відповідно до часто спеціалізованих потреб наших клієнтів у даних ШІ. Тому я тісно співпрацюю з ними, щоб визначити порядок денний.

Існує також, звичайно, стратегічне річне та квартальне планування, а також поділ стратегічних цілей на цілі індивідуальної команди та не відставати від розвитку цих планів. Що стосується розробки функцій, які ми робимо, у нас, як правило, є два технологічних напрямки. Одна з них полягає в тому, щоб переконатися, що ми маємо правильні елементи для досягнення найкращих результатів у наших поточних і нових проектах. Інший напрямок — це вдосконалення та розширення наших технологічних можливостей із зосередженням на впровадженні в них машинного навчання.

Чи могли б ви обговорити типи алгоритмів машинного навчання, над якими ви працюєте в LXT?

Рішення зі штучним інтелектом трансформують бізнес у всіх галузях, і ми в LXT маємо честь надавати високоякісні дані для навчання алгоритмів машинного навчання, які їх використовують. Наші клієнти працюють над широким спектром програм, включаючи доповнену та віртуальну реальність, комп’ютерне бачення, розмовний штучний інтелект, генеративний штучний інтелект, релевантність пошуку та обробку мови та природної мови (NLP) тощо. Ми націлені на впровадження алгоритмів і технологій машинного навчання майбутнього шляхом генерації та вдосконалення даних для всіх мов, культур і модальностей.

Внутрішньо ми також використовуємо машинне навчання для вдосконалення та оптимізації наших внутрішніх процесів, починаючи від автоматизації перевірки якості даних і закінчуючи моделлю маркування людини в циклі для всіх модальностей даних, над якими ми працюємо.

Обробка мовлення та аудіо швидко наближається до досконалості, коли мова заходить про англійську мову, а особливо про білих чоловіків. Як довго, на вашу думку, мине, поки не буде рівних умов для всіх мов, статей і етнічних груп?

Це складне питання, яке залежить від ряду факторів, зокрема економічних, політичних, соціальних і технологічних. Але ясно те, що поширеність англійської мови привела ШІ туди, де ми зараз. Отже, досягнення рівних умов гри дійсно залежить від швидкості, з якою представлення даних про різні етнічні групи та групи населення зростає в Інтернеті, і темпи, з якими вони ростуть, визначатимуть, коли ми туди потрапимо.

Однак LXT і подібні компанії можуть мати велику роль у створенні більш рівних умов гри. Поки дані для менш представлених мов, статі та етнічної групи важкодоступні або просто недоступні, ці зміни відбуватимуться повільніше. Але ми намагаємося зробити свій внесок. Завдяки охопленню понад 1,000 мовних налаштувань і досвіду роботи в 145 країнах LXT допомагає зробити доступ до більшої кількості мовних даних.

Яке ваше бачення того, як LXT може прискорити роботу ШІ для різних клієнтів?

Наша мета в LXT — надавати рішення для обробки даних, які забезпечують ефективну, точну та швидшу розробку ШІ. Завдяки нашому 12-річному досвіду в області даних зі штучним інтелектом ми не тільки накопичили широкі ноу-хау про потреби клієнтів з точки зору всіх аспектів, пов’язаних з даними, але й постійно вдосконалювали наші процеси, щоб забезпечити найвищий рівень якісні дані в найшвидшому темпі та за найкращими цінами. Отже, в результаті нашого непохитного прагнення надавати нашим клієнтам оптимальне поєднання якості даних штучного інтелекту, ефективності та ціноутворення, ми стали надійним партнером даних штучного інтелекту, про що свідчать наші постійні клієнти, які постійно повертаються до LXT для своїх постійних клієнтів. зростаючі та розвиваючі потреби в даних ШІ. Моє бачення полягає в тому, щоб зміцнити, покращити та розширити цей LXT «MO» до всіх модальностей даних, з якими ми працюємо, а також до всіх типів розробки ШІ, які ми зараз обслуговуємо, включаючи генеративний ШІ. Досягнення цієї мети полягає в стратегічному розширенні наших власних можливостей машинного навчання та науки про дані як з точки зору технологій, так і ресурсів.

Дякую за чудове інтерв’ю, читачі, які хочуть дізнатися більше, повинні відвідати LXT.