Интервью
Амр Нур-Элдин, вице-президент по технологиям LXT – серия интервью

Амр Нур-Элдин, вице-президент по технологиям в LXT. Амр — доктор философии. учёный-исследователь с более чем 16-летним профессиональным опытом в области обработки речи/аудио и машинного обучения в контексте автоматического распознавания речи (ASR), с особым упором и практическим опытом в последние годы на методы глубокого обучения для потоковой передачи данных -до конца распознавания речи.
LXT — новый лидер в области обучающих данных искусственного интеллекта для использования интеллектуальных технологий в глобальных организациях. В партнерстве с международной сетью участников LXT собирает и аннотирует данные различными способами со скоростью, масштабом и гибкостью, необходимыми предприятию. Их глобальный опыт охватывает более 145 стран и более 1000 языковых регионов.
Вы получили докторскую степень в области обработки сигналов в Университете Макгилла. Что вас изначально заинтересовало в этой области?
Я всегда хотел изучать инженерное дело, и мне очень нравились естественные науки в целом, но больше всего меня привлекали математика и физика. Я обнаружил, что всегда пытаюсь понять, как устроена природа и как применить это понимание для создания технологий. После окончания школы у меня была возможность заняться медициной и другими профессиями, но я выбрал именно инженерное дело, поскольку, на мой взгляд, оно представляло собой идеальное сочетание теории и применения в двух самых близких моему сердцу областях: математике и физике. А потом, когда я это выбрал, появилось множество потенциальных путей — механический, гражданский и так далее. Но я специально выбрал электротехнику, потому что, на мой взгляд, она наиболее близка и сложна к типу математических и физических задач, которые мне всегда казались сложными и, следовательно, нравились больше, а также является основой современных технологий, которые всегда стимулировали мне.
В электротехнике можно выбирать из различных специализаций, которые обычно подпадают под две категории: телекоммуникации и обработка сигналов, а также энергетика и электротехника. Когда пришло время выбирать между этими двумя, я выбрал телекоммуникации и обработку сигналов, потому что это ближе к тому, как мы описываем природу с помощью физики и уравнений. Вы говорите о сигналах, будь то аудио, изображения или видео; понимание того, как мы общаемся и что воспринимают наши органы чувств, а также того, как математически представить эту информацию таким образом, чтобы мы могли использовать эти знания для создания и улучшения технологий.
Не могли бы вы рассказать о своем исследовании в Университете Макгилла по теоретико-информационному аспекту искусственного расширения пропускной способности (BWE)?
После получения степени бакалавра я хотел продолжить академическое изучение области обработки сигналов. После года изучения фотоники в рамках магистратуры по физике я решил вернуться к инженерному делу, чтобы получить степень магистра в области обработки аудио и речевых сигналов, сосредоточившись на распознавании речи. Когда пришло время защищать докторскую диссертацию, я хотел немного расширить свою сферу деятельности, включив в нее общую обработку звука и речи, а также тесно связанные области машинного обучения и теории информации, а не просто сосредоточиться на приложениях для распознавания речи.
Движущей силой моей докторской диссертации стало расширение полосы пропускания узкополосной речи. Узкополосная речь относится к обычной телефонной речи. Частотное содержание речи простирается примерно до 20 килогерц, но большая часть информационного содержания сосредоточена всего лишь до 4 килогерц. Расширение полосы пропускания означает искусственное расширение речевого содержания с 3.4 килогерца, что является верхней границей частоты в обычной телефонии, до более высоких частот, до восьми килогерц и более. Чтобы лучше восстановить недостающий высокочастотный контент, учитывая только доступный узкополосный контент, необходимо сначала количественно оценить взаимную информацию между речевым контентом в двух частотных диапазонах, а затем использовать эту информацию для обучения модели, которая изучает эту общую информацию; модель, которую после обучения можно затем использовать для генерации высокочастотного контента, учитывая только узкополосную речь, и то, что модель узнала о взаимосвязи между этой доступной узкополосной речью и отсутствующим высокочастотным контентом. Количественная оценка и представление этой общей «взаимной информации» — вот где на помощь приходит теория информации. Теория информации — это исследование количественной оценки и представления информации в любом сигнале. Итак, мое исследование было посвящено использованию теории информации для улучшения искусственного расширения полосы пропускания речи. Таким образом, моя докторская диссертация представляла собой скорее междисциплинарную исследовательскую деятельность, в которой я сочетал обработку сигналов с теорией информации и машинным обучением.
Вы более 16 лет работали главным исследователем речи в компании Nuance Communications, которая теперь является частью Microsoft. Какие основные выводы вы сделали из этого опыта?
С моей точки зрения, самым важным преимуществом было то, что я всегда работал над самыми современными, передовыми методами обработки сигналов и машинного обучения и применял эти технологии в реальных приложениях. У меня появилась возможность применить эти методы к продуктам диалогового ИИ в различных областях. Эти области варьировались от предприятий до здравоохранения, автомобилестроения и мобильности и других. Некоторые из конкретных приложений включали виртуальных помощников, интерактивный голосовой ответ, преобразование голосовой почты в текст и другие, где правильное представление и транскрипция имеют решающее значение, например, в здравоохранении при взаимодействии врача и пациента. На протяжении этих 16 лет мне посчастливилось стать непосредственным свидетелем и частью эволюции диалогового ИИ, начиная со времен статистического моделирования с использованием скрытых марковских моделей и постепенного распространения глубокого обучения до сегодняшнего дня, когда глубокое обучение распространяется и доминирует почти во всех сферах. аспекты ИИ, включая генеративный ИИ, а также традиционный прогнозирующий или дискриминирующий ИИ. Еще одним ключевым выводом из этого опыта является решающая роль, которую данные играют, благодаря количеству и качеству, в качестве ключевого фактора возможностей и производительности модели ИИ.
Вы опубликовали дюжину статей, в том числе в таких известных изданиях, как IEEE. Какова, по вашему мнению, самая революционная статья, которую вы опубликовали, и почему она важна?
Наиболее влиятельной по количеству цитирований по данным Google Scholar будет статья 2008 года под названием «Расширение полосы пропускания узкополосной речи на основе кепстрального коэффициента Mel-частоты». На высоком уровне основное внимание в этой статье уделяется тому, как реконструировать речевой контент с использованием представления признаков, которое широко используется в области автоматического распознавания речи (ASR), кепстральных коэффициентов мел-частоты.
Однако, на мой взгляд, более инновационной статьей является статья, имеющая второе место по цитируемости, статья 2011 года под названием «Аппроксимация модели гауссовой смеси на основе памяти для расширения полосы пропускания узкополосной речи«. В этой работе я предложил новую технику статистического моделирования, которая включает в речь временную информацию. Преимущество этого метода заключается в том, что он позволяет моделировать долговременную информацию в речи с минимальной дополнительной сложностью и таким образом, который при этом позволяет также генерировать широкополосную речь в потоковом режиме или в режиме реального времени.
В июне 2023 года вы были принят на работу в качестве вице-президента по технологиям в LXT, что привлекло вас на этой должности?
На протяжении всего моего академического и профессионального опыта до LXT я всегда работал непосредственно с данными. Фактически, как я уже отмечал ранее, одним из ключевых выводов из моей работы в области науки о речи и машинного обучения была решающая роль данных в жизненном цикле модели ИИ. Наличие достаточного количества качественных данных в правильном формате было и остается жизненно важным для успеха современного искусственного интеллекта, основанного на глубоком обучении. Таким образом, когда я оказался на том этапе своей карьеры, когда я искал среду, подобную стартапу, где я мог бы учиться, расширять свои навыки, а также использовать свой опыт речи и искусственного интеллекта для достижения максимального эффекта, мне повезло. чтобы иметь возможность присоединиться к LXT. Это было идеальное сочетание. LXT не только является поставщиком данных ИИ, который растет впечатляющими и последовательными темпами, но я также считаю, что он находится на идеальной стадии с точки зрения роста ноу-хау в области ИИ, а также размера и разнообразия клиентов, а, следовательно, и ИИ. и типы данных AI. Я наслаждался возможностью присоединиться и помочь в его развитии; оказать большое влияние, представив точку зрения конечного пользователя данных после того, как все эти годы он был пользователем ИИ-исследователя данных.
Как выглядит ваш обычный день в LXT?
Мой обычный день начинается с изучения последних исследований по той или иной теме, которые в последнее время были сосредоточены на генеративном искусственном интеллекте, и того, как мы можем применить его к потребностям наших клиентов. К счастью, у меня есть отличная команда, которая очень хорошо разбирается в создании и адаптации решений к часто специализированным потребностям наших клиентов в данных ИИ. Поэтому я тесно сотрудничаю с ними, чтобы определить эту повестку дня.
Разумеется, существует также стратегическое годовое и квартальное планирование, а также разбиение стратегических целей на цели отдельных команд и отслеживание развития этих планов. Что касается разработки функций, которую мы делаем, у нас обычно есть два технологических направления. Один из них — убедиться, что у нас есть все необходимое для достижения наилучших результатов в наших текущих и новых проектах. Другое направление — улучшение и расширение наших технологических возможностей с упором на внедрение в них машинного обучения.
Не могли бы вы обсудить типы алгоритмов машинного обучения, над которыми вы работаете в LXT?
Решения искусственного интеллекта трансформируют бизнес во всех отраслях, и для нас в LXT большая честь предоставить высококачественные данные для обучения алгоритмов машинного обучения, которые лежат в их основе. Наши клиенты работают над широким спектром приложений, включая дополненную и виртуальную реальность, компьютерное зрение, диалоговый искусственный интеллект, генеративный искусственный интеллект, релевантность поиска, обработку речи и естественного языка (НЛП) и другие. Мы стремимся обеспечить поддержку алгоритмов и технологий машинного обучения будущего посредством генерации и улучшения данных на всех языках, культурах и модальностях.
Внутри компании мы также используем машинное обучение для улучшения и оптимизации наших внутренних процессов, начиная от автоматизации проверки качества данных и заканчивая внедрением модели маркировки с участием человека во всех модальностях данных, над которыми мы работаем.
Обработка речи и звука быстро приближается к совершенству, когда дело касается англичан и особенно белых мужчин. Как вы думаете, сколько времени пройдет, прежде чем правила игры станут равными для всех языков, полов и этнических групп?
Это сложный вопрос, и он зависит от ряда факторов, в том числе экономических, политических, социальных и технологических. Но ясно то, что именно преобладание английского языка привело ИИ туда, где мы находимся сейчас. Таким образом, достижение такого уровня, где правила игры будут равными, на самом деле зависит от скорости, с которой в Интернете растет представление данных о различных этнических группах и группах населения, и именно скорость этого роста будет определять, когда мы этого достигнем.
Однако LXT и подобные компании могут оказать нам большую помощь в обеспечении более равных условий игры. Пока данные по менее широко представленным языкам, гендерам и этническим группам труднодоступны или просто недоступны, эти изменения будут происходить медленнее. Но мы стараемся внести свой вклад. Благодаря охвату более 1,000 языковых регионов и опыту работы в 145 странах LXT помогает сделать возможным доступ к большему количеству языковых данных.
Как вы видите, как LXT может ускорить работу в области искусственного интеллекта для различных клиентов?
Наша цель в LXT — предоставлять решения для обработки данных, которые обеспечивают эффективную, точную и быструю разработку ИИ. Благодаря нашему 12-летнему опыту работы в области данных искусственного интеллекта мы не только накопили обширные знания о потребностях клиентов с точки зрения всех аспектов, связанных с данными, но и постоянно совершенствовали наши процессы, чтобы обеспечить высочайшее качество. качественные данные в кратчайшие сроки и по лучшим ценам. Следовательно, в результате нашей твердой приверженности предоставлению нашим клиентам оптимального сочетания качества, эффективности и цены данных ИИ, мы стали надежным партнером в области данных ИИ, о чем свидетельствуют наши постоянные клиенты, которые продолжают возвращаться в LXT для своих постоянных клиентов. растущие и развивающиеся потребности в данных ИИ. Мое видение состоит в том, чтобы закрепить, улучшить и расширить этот «MO» LXT для всех модальностей данных, над которыми мы работаем, а также для всех типов разработки ИИ, которые мы сейчас обслуживаем, включая генеративный ИИ. Достижение этой цели связано со стратегическим расширением наших собственных возможностей машинного обучения и обработки данных, как с точки зрения технологий, так и ресурсов.
Спасибо за отличное интервью, читатели, которые хотят узнать больше, должны посетить LXT.