부본 Amr Nour-Eldin, LXT 기술 담당 부사장 - 인터뷰 시리즈 - Unite.AI
Rescale 미팅 예약

인터뷰

Amr Nour-Eldin, LXT 기술 담당 부사장 - 인터뷰 시리즈

mm
업데이트 on

Amr Nour-Eldin은 기술 담당 부사장입니다. LXT. Amr은 박사 학위입니다. ASR(자동 음성 인식) 맥락에서 음성/오디오 처리 및 기계 학습 분야에서 16년 이상의 전문 경험을 보유한 연구 과학자로서 최근 몇 년 동안 스트리밍 엔드를 위한 딥 러닝 기술에 중점을 두고 실무 경험을 쌓았습니다. -끝까지 음성 인식.

LXT 글로벌 조직을 위한 지능형 기술을 강화하는 AI 교육 데이터 분야의 신흥 리더입니다. LXT는 국제적인 기여자 네트워크와의 파트너십을 통해 기업이 요구하는 속도, 규모 및 민첩성을 갖춘 다양한 양식에 걸쳐 데이터를 수집하고 주석을 추가합니다. 그들의 글로벌 전문 지식은 145개국 이상, 1000개 이상의 언어 지역에 걸쳐 있습니다.

McGill University에서 신호 처리 박사 학위를 취득했는데, 처음에 이 분야에 관심을 가졌던 이유는 무엇입니까?

저는 항상 공학을 공부하고 싶었고 일반적으로 자연 과학을 정말 좋아했지만 특히 수학과 물리학에 더 끌렸습니다. 나는 항상 자연이 어떻게 작동하는지, 그리고 그 이해를 기술을 창조하기 위해 적용하는 방법을 알아내려고 노력하고 있다는 것을 깨달았습니다. 고등학교 졸업 후 저는 의학 및 기타 직업에 진출할 기회가 있었지만 특히 공학을 선택했습니다. 제 마음에 가장 가까운 두 분야인 수학과 물리학의 이론과 응용 모두에 대한 제 관점에서 완벽한 조합을 나타내기 때문입니다. 그리고 제가 그것을 선택하고 나면 기계, 민간 등 많은 잠재적인 경로가 있었습니다. 하지만 제가 특별히 전기공학을 선택한 이유는 전기공학이 제가 항상 어렵게 생각하고 따라서 더 즐기게 되는 수학과 물리학 문제 유형에 가장 가깝고 가장 힘들 뿐 아니라 항상 주도해 온 현대 기술의 기초이기 때문입니다. 나.

전기 공학에는 선택할 수 있는 다양한 전문 분야가 있으며, 일반적으로 통신 및 신호 처리, 전력 및 전기 공학이라는 두 가지 분야로 분류됩니다. 둘 중 하나를 선택해야 할 때가 되었을 때 저는 통신과 신호 처리를 선택했습니다. 물리학과 방정식을 통해 자연을 설명하는 방법에 더 가깝기 때문입니다. 오디오, 이미지, 비디오 등 신호에 대해 이야기하고 있습니다. 우리가 의사소통하는 방식과 우리의 감각이 인식하는 것이 무엇인지 이해하고, 해당 지식을 활용하여 기술을 만들고 개선할 수 있는 방식으로 해당 정보를 수학적으로 표현하는 방법을 이해합니다.

BWE(인공 대역폭 확장)의 정보 이론적 측면에 관해 McGill University에서 수행한 연구에 대해 토론해 주시겠습니까?

학사 학위를 마친 후에도 저는 신호 처리 분야를 학문적으로 계속 추구하고 싶었습니다. 물리학 석사 학위의 일환으로 XNUMX년 동안 포토닉스를 공부한 후, 저는 엔지니어링으로 다시 전환하여 음성 인식에 중점을 둔 오디오 및 음성 신호 처리 분야의 석사 학위를 취득하기로 결정했습니다. 박사 과정을 밟게 되었을 때, 저는 단순히 음성 인식 응용에만 집중하기보다는 일반 오디오 및 음성 처리뿐만 아니라 밀접하게 관련된 기계 학습 및 정보 이론 분야로 제 분야를 조금 더 넓히고 싶었습니다.

내 박사 학위를 위한 수단은 협대역 연설의 대역폭 확장이었습니다. 협대역 음성은 기존의 전화 통신 음성을 의미합니다. 음성의 주파수 내용은 약 20킬로헤르츠까지 확장되지만 대부분의 정보 내용은 최대 4킬로헤르츠에 집중되어 있습니다. 대역폭 확장은 음성 콘텐츠를 기존 전화 통신의 주파수 상한인 3.4킬로헤르츠에서 그 이상인 최대 XNUMX킬로헤르츠 이상까지 인위적으로 확장하는 것을 의미합니다. 사용 가능한 협대역 콘텐츠만 고려하여 누락된 더 높은 주파수 콘텐츠를 더 잘 재구성하려면 먼저 두 주파수 대역의 음성 콘텐츠 간의 상호 정보를 정량화한 다음 해당 정보를 사용하여 공유 정보를 학습하는 모델을 학습해야 합니다. 일단 훈련되면 협대역 음성만 주어진 고대역 콘텐츠를 생성하는 데 사용할 수 있는 모델과 사용 가능한 협대역 음성과 누락된 고대역 콘텐츠 간의 관계에 대해 모델이 학습한 내용입니다. 공유된 "상호 정보"를 정량화하고 표현하는 것이 정보 이론이 등장하는 곳입니다. 정보 이론은 모든 신호의 정보를 정량화하고 표현하는 연구입니다. 그래서 내 연구는 음성의 인위적인 대역폭 확장을 개선하기 위해 정보 이론을 통합하는 것이었습니다. 따라서 내 박사 학위는 신호 처리와 정보 이론 및 기계 학습을 결합한 학제간 연구 활동에 가깝습니다.

당신은 현재 Microsoft의 일부인 Nuance Communications에서 16년 넘게 수석 음성 과학자로 근무했습니다. 이 경험에서 얻은 주요 교훈은 무엇입니까?

내 관점에서 가장 중요한 이점은 신호 처리 및 기계 학습 분야에서 항상 최첨단 기술을 연구하고 해당 기술을 실제 응용 프로그램에 적용했다는 것입니다. 저는 이러한 기술을 여러 도메인의 대화형 AI 제품에 적용할 기회를 얻었습니다. 이러한 영역은 특히 기업, 의료, 자동차, 모빌리티에 이르기까지 다양했습니다. 특정 애플리케이션 중 일부에는 가상 비서, 대화형 음성 응답, 텍스트로의 음성 메일, 그리고 의사/환자 상호 작용이 있는 의료 분야와 같이 적절한 표현과 전사가 중요한 기타 애플리케이션이 포함되었습니다. 지난 16년 동안 나는 은닉 마르코프 모델을 사용한 통계 모델링 시대부터 딥 러닝의 점진적인 도입을 거쳐 지금까지 딥 러닝이 확산되고 거의 모든 것을 지배하는 시대에 이르기까지 대화형 AI의 진화를 직접 목격하고 그 일부가 될 수 있었던 행운을 누렸습니다. 생성적 AI뿐만 아니라 전통적인 예측 또는 차별적 AI를 포함한 AI의 측면. 이 경험에서 얻은 또 다른 주요 교훈은 양과 질을 통해 AI 모델 기능과 성능의 핵심 동인으로서 데이터가 수행하는 중요한 역할입니다.

IEEE와 같은 호평을 받는 출판물을 포함하여 XNUMX개의 논문을 출판하셨습니다. 당신이 출판한 가장 획기적인 논문은 무엇이며, 그것이 왜 중요하다고 생각하시나요?

Google Scholar에 따르면 인용 횟수 기준으로 가장 영향력 있는 논문은 '협대역 음성의 Mel-Frequency Cepstral Coefficient 기반 대역폭 확장". 높은 수준에서 본 논문의 초점은 자동 음성 인식(ASR) 분야에서 널리 사용되는 특징 표현인 멜-주파수 켑스트럴 계수를 사용하여 음성 콘텐츠를 재구성하는 방법에 관한 것입니다.

그러나 내 생각에 더 혁신적인 논문은 두 번째로 많이 인용된 논문인 2011년 논문입니다.협대역 음성의 대역폭 확장을 위한 가우스 혼합 모델 프레임워크의 메모리 기반 근사“. 그 작업에서 나는 음성에 시간 정보를 통합하는 새로운 통계 모델링 기술을 제안했습니다. 이 기술의 장점은 추가 복잡성을 최소화하면서 음성의 장기 정보를 모델링할 수 있으며 스트리밍 또는 실시간 방식으로 광대역 음성을 생성할 수도 있다는 것입니다.

당신은 2023년 XNUMX월에 LXT 기술담당 부사장으로 선임, 이 자리에 끌린 이유는 무엇입니까?

LXT 이전의 학문적, 직업적 경험을 통해 저는 항상 데이터를 직접 다루었습니다. 실제로 앞서 언급했듯이 음성 과학 및 기계 학습 작업에서 제가 얻은 주요 교훈 중 하나는 AI 모델 수명 주기에서 데이터가 수행하는 중요한 역할이었습니다. 올바른 형식으로 충분한 품질의 데이터를 확보하는 것은 최첨단 딥러닝 기반 AI의 성공에 필수적이었으며 앞으로도 그러할 것입니다. 따라서 제가 배우고, 기술을 확장하고, 음성 및 AI 경험을 활용하여 가장 큰 영향력을 발휘할 수 있는 스타트업과 같은 환경을 찾고 있던 경력 단계에 있을 때 저는 운이 좋았습니다. LXT에 합류할 수 있는 기회를 가지세요. 그것은 완벽하게 맞았습니다. LXT는 인상적이고 꾸준한 속도로 성장하고 있는 AI 데이터 제공업체일 뿐만 아니라 AI 노하우 성장, 고객 규모 및 다양성 측면에서 완벽한 단계에 있다고 보았습니다. 그리고 AI 데이터 유형. 나는 그 성장 여정에 동참하고 도움을 줄 수 있는 기회를 즐겼습니다. 수년 동안 AI 데이터 과학자 사용자로 활동한 후 데이터 최종 사용자의 관점을 가져옴으로써 큰 ​​영향을 미치게 되었습니다.

LXT에서의 평균 하루는 어떤가요?

저의 일상적인 하루는 최근 생성 AI를 중심으로 한 주제에 대한 최신 연구와 이를 고객의 요구 사항에 적용할 수 있는 방법을 조사하는 것으로 시작됩니다. 운 좋게도 저는 고객의 전문적인 AI 데이터 요구 사항에 맞는 솔루션을 만들고 맞춤화하는 데 매우 능숙한 훌륭한 팀을 보유하고 있습니다. 그래서 저는 그 의제를 설정하기 위해 그들과 긴밀히 협력합니다.

물론 전략적 연간 및 분기별 계획도 있고, 전략적 목표를 개별 팀 목표로 세분화하고 해당 계획에 따른 개발 속도를 따라잡는 것도 있습니다. 우리가 수행하고 있는 기능 개발에는 일반적으로 두 가지 기술 트랙이 있습니다. 하나는 현재 프로젝트와 새로운 프로젝트에서 최고의 결과를 제공할 수 있는 올바른 부분을 확보하는 것입니다. 다른 트랙은 기계 학습을 여기에 통합하는 데 중점을 두고 기술 역량을 개선하고 확장하는 것입니다.

LXT에서 작업하고 있는 머신러닝 알고리즘의 유형에 대해 이야기해 주실 수 있나요?

인공 지능 솔루션은 모든 산업 분야의 비즈니스를 변화시키고 있으며, LXT는 이를 지원하는 기계 학습 알고리즘을 교육하기 위한 고품질 데이터를 제공하게 된 것을 영광으로 생각합니다. 우리 고객들은 증강 현실과 가상 현실, 컴퓨터 비전, 대화형 AI, 생성적 AI, 검색 관련성, 음성 및 자연어 처리(NLP) 등 다양한 애플리케이션을 개발하고 있습니다. 우리는 모든 언어, 문화 및 양식에 걸쳐 데이터 생성 및 향상을 통해 미래의 기계 학습 알고리즘 및 기술을 강화하는 데 최선을 다하고 있습니다.

내부적으로도 우리는 데이터 품질 검증 자동화부터 우리가 작업하는 모든 데이터 양식에 걸쳐 인간 참여형 라벨링 모델 활성화에 이르기까지 내부 프로세스를 개선하고 최적화하기 위해 기계 학습을 통합하고 있습니다.

영어, 특히 백인 남성의 경우 음성 및 오디오 처리가 완벽에 가까워지고 있습니다. 모든 언어, 성별, 민족에 걸쳐 공평한 경쟁의 장을 마련하는 데 얼마나 걸릴 것으로 예상하시나요?

이는 복잡한 질문이며 경제, 정치, 사회, 기술 등 다양한 요인에 따라 달라집니다. 그러나 분명한 것은 영어의 보급이 AI를 현재의 위치로 이끈 원동력이라는 것입니다. 따라서 공평한 경쟁의 장에 도달하는 것은 실제로 다양한 인종과 인구의 데이터 표현이 온라인에서 증가하는 속도에 달려 있으며, 증가하는 속도에 따라 우리가 그곳에 도달하는 시점이 결정됩니다.

그러나 LXT 및 유사 회사는 우리를 보다 공평한 경쟁의 장으로 이끄는 데 큰 역할을 할 수 있습니다. 잘 표현되지 않은 언어, 성별, 민족에 대한 데이터에 접근하기 어렵거나 단순히 사용할 수 없는 한, 그러한 변화는 더 느리게 이루어질 것입니다. 하지만 우리는 우리의 역할을 다하려고 노력하고 있습니다. 1,000개 이상의 언어 로캘을 지원하고 145개국에서의 경험을 바탕으로 LXT는 더 많은 언어 데이터에 액세스할 수 있도록 지원합니다.

LXT가 다양한 고객을 위한 AI 노력을 가속화할 수 있는 방법에 대한 귀하의 비전은 무엇입니까?

LXT의 목표는 효율적이고 정확하며 빠른 AI 개발을 가능하게 하는 데이터 솔루션을 제공하는 것입니다. AI 데이터 공간에서 12년간의 경험을 통해 우리는 데이터와 관련된 모든 측면에서 고객의 요구에 대한 광범위한 노하우를 축적했을 뿐만 아니라 최고의 결과를 제공하기 위해 프로세스를 지속적으로 미세 조정해 왔습니다. 가장 빠른 속도와 최고의 가격으로 고품질 데이터를 제공합니다. 결과적으로, 고객에게 AI 데이터 품질, 효율성 및 가격의 최적 조합을 제공하려는 우리의 꾸준한 노력의 결과, 우리는 계속해서 LXT를 찾아오는 단골 고객이 입증하는 신뢰할 수 있는 AI 데이터 파트너가 되었습니다. AI 데이터 요구 사항이 증가하고 진화하고 있습니다. 나의 비전은 LXT "MO"를 우리가 작업하는 모든 데이터 형식은 물론 생성 AI를 포함하여 우리가 현재 제공하는 모든 유형의 AI 개발로 강화, 개선 및 확장하는 것입니다. 이 목표를 달성하려면 기술과 리소스 측면에서 자체 머신 러닝 및 데이터 과학 역량을 전략적으로 확장하는 것이 중요합니다.

훌륭한 인터뷰 감사합니다. 자세한 내용을 알고 싶은 독자는 방문하세요. LXT.

unite.AI의 창립 파트너이자 포브스 기술 위원회, 앙투안은 미래파 예술가 AI와 로봇공학의 미래에 열정을 갖고 있는 사람입니다.

그는 또한 증권.io, 파괴적인 기술에 대한 투자에 초점을 맞춘 웹사이트입니다.