Kết nối với chúng tôi

Amr Nour-Eldin, Phó Chủ tịch Công nghệ tại LXT – Chuỗi bài phỏng vấn

Phỏng vấn

Amr Nour-Eldin, Phó Chủ tịch Công nghệ tại LXT – Chuỗi bài phỏng vấn

mm

Amr Nour-Eldin, là Phó Chủ tịch Công nghệ tại mở rộng LXT. Amr là tiến sĩ. nhà khoa học nghiên cứu với hơn 16 năm kinh nghiệm chuyên môn trong lĩnh vực xử lý giọng nói/âm thanh và học máy trong bối cảnh Nhận dạng giọng nói tự động (ASR), với trọng tâm đặc biệt và kinh nghiệm thực tế trong những năm gần đây về kỹ thuật học sâu cho kết thúc phát trực tuyến -to-end nhận dạng giọng nói.

mở rộng LXT là công ty dẫn đầu mới nổi về dữ liệu đào tạo AI để hỗ trợ công nghệ thông minh cho các tổ chức toàn cầu. Hợp tác với mạng lưới cộng tác viên quốc tế, LXT thu thập và chú thích dữ liệu trên nhiều phương thức với tốc độ, quy mô và tính linh hoạt mà doanh nghiệp yêu cầu. Chuyên môn toàn cầu của họ trải rộng trên 145 quốc gia và hơn 1000 ngôn ngữ địa phương.

Bạn theo đuổi bằng Tiến sĩ về Xử lý Tín hiệu tại Đại học McGill, điều gì khiến bạn ban đầu quan tâm đến lĩnh vực này?

Tôi luôn muốn học ngành kỹ thuật và thực sự thích khoa học tự nhiên nói chung, nhưng đặc biệt bị cuốn hút hơn vào toán và vật lý. Tôi thấy mình luôn cố gắng tìm hiểu cách thức hoạt động của thiên nhiên và cách áp dụng sự hiểu biết đó để tạo ra công nghệ. Sau trung học, tôi có cơ hội theo học ngành y và các ngành nghề khác, nhưng đặc biệt chọn kỹ thuật vì nó thể hiện sự kết hợp hoàn hảo theo quan điểm của tôi về cả lý thuyết và ứng dụng trong hai lĩnh vực gần gũi nhất với trái tim tôi: toán học và vật lý. Và khi tôi đã chọn nó, sẽ có rất nhiều con đường tiềm năng - cơ khí, dân dụng, v.v. Nhưng tôi đặc biệt chọn kỹ thuật điện vì theo quan điểm của tôi, nó là môn gần nhất và khó nhất với loại bài toán và vật lý mà tôi luôn thấy khó khăn và do đó, thích thú hơn, đồng thời là nền tảng của công nghệ hiện đại luôn thúc đẩy Tôi.

Trong kỹ thuật điện, có nhiều chuyên ngành khác nhau để lựa chọn, thường thuộc hai chuyên ngành: viễn thông và xử lý tín hiệu, và chuyên ngành điện và kỹ thuật điện. Khi đến lúc phải lựa chọn giữa hai điều đó, tôi đã chọn xử lý tín hiệu và viễn thông vì nó gần với cách chúng ta mô tả thiên nhiên thông qua vật lý và phương trình hơn. Bạn đang nói về tín hiệu, cho dù đó là âm thanh, hình ảnh hay video; hiểu cách chúng ta giao tiếp và những gì các giác quan của chúng ta cảm nhận được cũng như cách biểu diễn thông tin đó một cách toán học theo cách cho phép chúng ta tận dụng kiến ​​thức đó để tạo ra và cải tiến công nghệ.

Bạn có thể thảo luận về nghiên cứu của mình tại Đại học McGill về khía cạnh lý thuyết thông tin của việc mở rộng băng thông nhân tạo (BWE) không?

Sau khi hoàn thành bằng cử nhân, tôi muốn tiếp tục theo đuổi lĩnh vực Xử lý Tín hiệu về mặt học thuật. Sau một năm học Quang tử như một phần của chương trình Thạc sĩ Vật lý, tôi quyết định quay lại Kỹ thuật để theo đuổi bằng thạc sĩ về xử lý tín hiệu Âm thanh và Lời nói, tập trung vào nhận dạng giọng nói. Khi đến lúc lấy bằng Tiến sĩ, tôi muốn mở rộng lĩnh vực của mình một chút sang xử lý âm thanh và giọng nói nói chung cũng như các lĩnh vực liên quan chặt chẽ là Học máy và Lý thuyết thông tin, thay vì chỉ tập trung vào ứng dụng nhận dạng giọng nói.

Phương tiện cho tiến sĩ của tôi là việc mở rộng băng thông của giọng nói băng thông hẹp. Bài phát biểu băng thông hẹp đề cập đến bài phát biểu điện thoại thông thường. Nội dung tần số của giọng nói kéo dài đến khoảng 20 kilohertz, nhưng phần lớn nội dung thông tin chỉ tập trung ở tần số 4 kilohertz. Mở rộng băng thông đề cập đến việc mở rộng nội dung giọng nói một cách giả tạo từ 3.4 kilohertz, là tần số cao nhất được giới hạn trong điện thoại thông thường, lên trên mức đó, lên đến XNUMX kilohertz trở lên. Để tái tạo lại tốt hơn nội dung tần số cao hơn bị thiếu chỉ dựa trên nội dung băng tần hẹp có sẵn, trước tiên người ta phải định lượng thông tin lẫn nhau giữa nội dung giọng nói trong hai dải tần, sau đó sử dụng thông tin đó để huấn luyện một mô hình tìm hiểu thông tin được chia sẻ đó; một mô hình, sau khi được đào tạo, có thể được sử dụng để tạo ra nội dung băng thông cao chỉ dành cho giọng nói băng thông hẹp và những gì mô hình đã học được về mối quan hệ giữa giọng nói băng thông hẹp sẵn có đó và nội dung băng thông cao bị thiếu. Định lượng và thể hiện “thông tin chung” được chia sẻ đó là nơi lý thuyết thông tin xuất hiện. Lý thuyết thông tin là nghiên cứu về định lượng và thể hiện thông tin trong bất kỳ tín hiệu nào. Vì vậy, nghiên cứu của tôi là kết hợp lý thuyết thông tin để cải thiện khả năng mở rộng băng thông nhân tạo của lời nói. Vì vậy, chương trình Tiến sĩ của tôi thiên về hoạt động nghiên cứu liên ngành hơn, nơi tôi kết hợp xử lý tín hiệu với lý thuyết thông tin và học máy.

Bạn từng là Nhà khoa học về diễn thuyết chính tại Nuance Communications, hiện là một phần của Microsoft, trong hơn 16 năm, một số bài học quan trọng mà bạn rút ra được từ trải nghiệm này là gì?

Theo quan điểm của tôi, lợi ích quan trọng nhất là tôi luôn nghiên cứu các kỹ thuật tiên tiến, hiện đại trong xử lý tín hiệu và học máy, đồng thời áp dụng công nghệ đó vào các ứng dụng trong thế giới thực. Tôi có cơ hội áp dụng những kỹ thuật đó cho các sản phẩm AI đàm thoại trên nhiều lĩnh vực. Các lĩnh vực này bao gồm từ doanh nghiệp, chăm sóc sức khỏe, ô tô và di động, cùng nhiều lĩnh vực khác. Một số ứng dụng cụ thể bao gồm trợ lý ảo, phản hồi bằng giọng nói tương tác, thư thoại thành văn bản và những ứng dụng khác trong đó việc trình bày và phiên âm thích hợp là rất quan trọng, chẳng hạn như trong chăm sóc sức khỏe với các tương tác giữa bác sĩ/bệnh nhân. Trong suốt 16 năm đó, tôi đã may mắn được chứng kiến ​​tận mắt và là một phần trong quá trình phát triển của AI đàm thoại, từ những ngày lập mô hình thống kê bằng Mô hình Markov ẩn, cho đến việc Deep Learning dần dần tiếp quản, cho đến nay khi deep learning phát triển và thống trị hầu hết mọi lĩnh vực. các khía cạnh của AI, bao gồm AI sáng tạo cũng như AI dự đoán hoặc phân biệt đối xử truyền thống. Một điểm rút ra quan trọng khác từ trải nghiệm đó là vai trò quan trọng của dữ liệu, thông qua số lượng và chất lượng, là động lực chính cho khả năng và hiệu suất của mô hình AI.

Bạn đã xuất bản hàng tá bài báo, bao gồm cả những ấn phẩm được hoan nghênh như IEEE. Theo ý kiến ​​của bạn, bài báo mang tính đột phá nhất mà bạn đã xuất bản là gì và tại sao nó lại quan trọng?

Bài báo có tác động mạnh nhất, xét theo số lượng trích dẫn theo Google Scholar, sẽ là bài báo năm 2008 có tựa đề “Mở rộng băng thông dựa trên hệ số Mel-Frequency của giọng nói băng thông hẹp”. Ở mức độ cao, trọng tâm của bài viết này là về cách tái tạo lại nội dung giọng nói bằng cách sử dụng biểu diễn đặc trưng được sử dụng rộng rãi trong lĩnh vực nhận dạng giọng nói tự động (ASR), hệ số cestral tần số mel.

Tuy nhiên, theo quan điểm của tôi, bài báo sáng tạo hơn là bài báo có số trích dẫn nhiều thứ hai, một bài báo năm 2011 có tựa đề “Xấp xỉ dựa trên bộ nhớ của Khung mô hình hỗn hợp Gaussian để mở rộng băng thông của lời nói băng thông hẹp“. Trong công việc đó, tôi đã đề xuất một kỹ thuật mô hình thống kê mới kết hợp thông tin thời gian trong lời nói. Ưu điểm của kỹ thuật đó là nó cho phép mô hình hóa thông tin dài hạn trong giọng nói với độ phức tạp bổ sung tối thiểu và theo cách vẫn cho phép tạo ra giọng nói băng rộng theo kiểu truyền phát hoặc thời gian thực.

Vào tháng 2023 năm XNUMX, bạn đã được tuyển dụng làm Phó Giám đốc Công nghệ tại LXT, điều gì đã thu hút bạn đến với vị trí này?

Trong suốt kinh nghiệm học tập và chuyên môn của mình trước LXT, tôi luôn làm việc trực tiếp với dữ liệu. Trên thực tế, như tôi đã lưu ý trước đó, một điều quan trọng mà tôi rút ra được từ công việc của mình với khoa học ngôn ngữ và học máy là dữ liệu đóng vai trò quan trọng trong vòng đời của mô hình AI. Việc có đủ dữ liệu chất lượng ở định dạng phù hợp đã và đang tiếp tục đóng vai trò quan trọng đối với sự thành công của AI dựa trên học sâu hiện đại. Vì vậy, khi tôi tình cờ đang ở một giai đoạn trong sự nghiệp của mình, nơi tôi đang tìm kiếm một môi trường giống như công ty khởi nghiệp, nơi tôi có thể học hỏi, mở rộng các kỹ năng của mình cũng như tận dụng kinh nghiệm diễn thuyết và AI của mình để có tác động nhiều nhất, tôi thật may mắn. để có cơ hội gia nhập LXT. Đó là sự phù hợp hoàn hảo. LXT không chỉ là nhà cung cấp dữ liệu AI đang phát triển với tốc độ ấn tượng và nhất quán mà tôi còn thấy nó đang ở giai đoạn hoàn hảo về sự phát triển về bí quyết AI cũng như quy mô và sự đa dạng của khách hàng, và do đó là trong AI và các kiểu dữ liệu AI. Tôi rất thích có cơ hội được tham gia và giúp đỡ trong hành trình phát triển của nó; để có tác động lớn bằng cách mang lại góc nhìn của người dùng cuối về dữ liệu sau khi đã là người dùng nhà khoa học dữ liệu AI trong ngần ấy năm.

Ngày trung bình của bạn ở LXT như thế nào?

Một ngày bình thường của tôi bắt đầu bằng việc xem xét nghiên cứu mới nhất về chủ đề này hay chủ đề khác, gần đây tập trung vào AI sáng tạo và cách chúng tôi có thể áp dụng nghiên cứu đó cho nhu cầu của khách hàng. May mắn thay, tôi có một đội ngũ xuất sắc rất thành thạo trong việc tạo và điều chỉnh các giải pháp cho nhu cầu dữ liệu AI chuyên biệt của khách hàng. Vì vậy, tôi làm việc chặt chẽ với họ để thiết lập chương trình nghị sự đó.

Tất nhiên, còn có kế hoạch chiến lược hàng năm và hàng quý, đồng thời chia nhỏ các mục tiêu chiến lược thành các mục tiêu của từng nhóm và theo kịp sự phát triển của các kế hoạch đó. Đối với việc phát triển tính năng mà chúng tôi đang thực hiện, chúng tôi thường có hai hướng công nghệ. Một là đảm bảo rằng chúng tôi có sẵn những phần phù hợp để mang lại kết quả tốt nhất cho các dự án hiện tại và mới sắp tới của chúng tôi. Hướng còn lại là cải thiện và mở rộng khả năng công nghệ của chúng tôi, tập trung vào việc kết hợp máy học vào chúng.

Bạn có thể thảo luận về các loại thuật toán học máy mà bạn đang thực hiện tại LXT không?

Các giải pháp trí tuệ nhân tạo đang chuyển đổi các doanh nghiệp trên tất cả các ngành và tại LXT, chúng tôi rất vinh dự được cung cấp dữ liệu chất lượng cao để đào tạo các thuật toán học máy hỗ trợ các giải pháp đó. Khách hàng của chúng tôi đang làm việc trên nhiều ứng dụng, bao gồm thực tế ảo và tăng cường, thị giác máy tính, AI đàm thoại, AI tổng hợp, mức độ liên quan của tìm kiếm, xử lý giọng nói và ngôn ngữ tự nhiên (NLP), cùng nhiều ứng dụng khác. Chúng tôi tận tâm hỗ trợ các thuật toán và công nghệ máy học trong tương lai thông qua việc tạo và nâng cao dữ liệu trên mọi ngôn ngữ, văn hóa và phương thức.

Trong nội bộ, chúng tôi cũng đang kết hợp công nghệ máy học để cải thiện và tối ưu hóa các quy trình nội bộ của mình, từ tự động hóa quá trình xác thực chất lượng dữ liệu cho đến hỗ trợ mô hình ghi nhãn theo vòng lặp của con người trên tất cả các phương thức dữ liệu mà chúng tôi đang thực hiện.

Việc xử lý giọng nói và âm thanh đang nhanh chóng tiến gần đến mức hoàn hảo khi nói đến tiếng Anh và đặc biệt là đàn ông da trắng. Bạn dự đoán sẽ mất bao lâu để có được một sân chơi bình đẳng cho tất cả các ngôn ngữ, giới tính và sắc tộc?

Đây là một câu hỏi phức tạp và phụ thuộc vào một số yếu tố, bao gồm kinh tế, chính trị, xã hội và công nghệ, cùng nhiều yếu tố khác. Nhưng điều rõ ràng là sự phổ biến của ngôn ngữ tiếng Anh là điều đã đưa AI đến được vị trí hiện tại. Vì vậy, để đạt được một sân chơi bình đẳng thực sự phụ thuộc vào tốc độ hiển thị dữ liệu từ các dân tộc và nhóm dân cư khác nhau phát triển trực tuyến và tốc độ phát triển của nó là điều sẽ quyết định khi chúng ta đến đó.

Tuy nhiên, LXT và các công ty tương tự có thể góp phần lớn trong việc đưa chúng ta tới một sân chơi bình đẳng hơn. Chừng nào dữ liệu về các ngôn ngữ, giới tính và dân tộc ít được thể hiện rõ ràng hơn khó truy cập hoặc đơn giản là không có sẵn, thì sự thay đổi đó sẽ diễn ra chậm hơn. Nhưng chúng tôi đang cố gắng làm phần việc của mình. Với phạm vi bao phủ hơn 1,000 ngôn ngữ địa phương và trải nghiệm ở 145 quốc gia, LXT giúp có thể truy cập vào nhiều dữ liệu ngôn ngữ hơn.

Tầm nhìn của bạn về cách LXT có thể tăng tốc các nỗ lực AI cho các khách hàng khác nhau là gì?

Mục tiêu của chúng tôi tại LXT là cung cấp các giải pháp dữ liệu cho phép phát triển AI hiệu quả, chính xác và nhanh hơn. Qua 12 năm kinh nghiệm trong lĩnh vực dữ liệu AI, chúng tôi không chỉ tích lũy được bí quyết sâu rộng về nhu cầu của khách hàng về mọi khía cạnh liên quan đến dữ liệu mà còn liên tục tinh chỉnh các quy trình của mình để mang lại hiệu quả cao nhất. dữ liệu chất lượng với tốc độ nhanh nhất và mức giá tốt nhất. Do đó, nhờ cam kết kiên định của chúng tôi trong việc cung cấp cho khách hàng sự kết hợp tối ưu giữa chất lượng, hiệu quả và giá cả của dữ liệu AI, chúng tôi đã trở thành đối tác dữ liệu AI đáng tin cậy, thể hiện rõ qua những khách hàng thường xuyên quay lại LXT của họ. nhu cầu dữ liệu AI ngày càng tăng và phát triển. Tầm nhìn của tôi là củng cố, cải thiện và mở rộng LXT “MO” đó cho tất cả các phương thức dữ liệu mà chúng tôi đang thực hiện cũng như cho tất cả các loại hình phát triển AI mà chúng tôi hiện đang phục vụ, bao gồm cả AI tổng hợp. Việc đạt được mục tiêu này xoay quanh việc mở rộng chiến lược khả năng học máy và khoa học dữ liệu của chúng ta, cả về công nghệ cũng như tài nguyên.

Cảm ơn bạn về cuộc phỏng vấn tuyệt vời, độc giả muốn tìm hiểu thêm hãy truy cập mở rộng LXT.

Antoine là một nhà lãnh đạo có tầm nhìn xa và là đối tác sáng lập của Unite.AI, được thúc đẩy bởi niềm đam mê không ngừng nghỉ trong việc định hình và thúc đẩy tương lai của AI và robot. Là một doanh nhân nối tiếp, ông tin rằng AI sẽ gây rối loạn cho xã hội như điện, và thường bị bắt gặp khi đang ca ngợi về tiềm năng của các công nghệ đột phá và AGI.

Là một nhà tương lai học, ông cống hiến hết mình để khám phá cách những đổi mới này sẽ định hình thế giới của chúng ta. Ngoài ra, ông là người sáng lập Chứng khoán.io, một nền tảng tập trung vào việc đầu tư vào các công nghệ tiên tiến đang định hình lại tương lai và định hình lại toàn bộ các lĩnh vực.