Stummel Amr Nour-Eldin, Vizepräsident für Technologie bei LXT – Interviewreihe – Unite.AI
Vernetzen Sie sich mit uns

Interviews

Amr Nour-Eldin, Vizepräsident für Technologie bei LXT – Interviewreihe

mm
Aktualisiert on

Amr Nour-Eldin ist Vizepräsident für Technologie bei LXT. Amr ist ein Ph.D. Forschungswissenschaftler mit über 16 Jahren Berufserfahrung in den Bereichen Sprach-/Audioverarbeitung und maschinelles Lernen im Kontext der automatischen Spracherkennung (ASR), mit besonderem Schwerpunkt und praktischer Erfahrung in den letzten Jahren auf Deep-Learning-Techniken für Streaming-Ende -End-Spracherkennung.

LXT ist ein aufstrebender Marktführer im Bereich KI-Trainingsdaten zur Unterstützung intelligenter Technologie für globale Organisationen. In Zusammenarbeit mit einem internationalen Netzwerk von Mitwirkenden sammelt und kommentiert LXT Daten über mehrere Modalitäten hinweg mit der Geschwindigkeit, dem Umfang und der Agilität, die das Unternehmen benötigt. Ihre globale Expertise erstreckt sich über mehr als 145 Länder und über 1000 Sprachregionen.

Sie haben an der McGill University in Signalverarbeitung promoviert. Was hat Sie ursprünglich an diesem Bereich interessiert?

Ich wollte schon immer Ingenieurwissenschaften studieren und mochte die Naturwissenschaften im Allgemeinen sehr, doch Mathematik und Physik haben mich im Besonderen fasziniert. Ich habe immer versucht herauszufinden, wie die Natur funktioniert und wie ich dieses Verständnis anwenden kann, um Technologie zu schaffen. Nach dem Abitur hatte ich die Möglichkeit, Medizin und andere Berufe zu ergreifen, entschied mich jedoch speziell für Ingenieurwissenschaften, da dies meiner Ansicht nach die perfekte Kombination von Theorie und Anwendung in den beiden Bereichen darstellte, die mir am Herzen liegen: Mathematik und Physik. Und nachdem ich mich dann dafür entschieden hatte, gab es viele mögliche Wege – mechanische, zivile und so weiter. Aber ich habe mich speziell für die Elektrotechnik entschieden, weil sie der Art von mathematischen und physikalischen Problemen am nächsten und meiner Meinung nach am schwierigsten ist, die ich immer als herausfordernd empfand und die mir daher mehr Spaß machte, und weil sie die Grundlage der modernen Technologie bildet, die mich immer vorangetrieben hat Mich.

Innerhalb der Elektrotechnik stehen verschiedene Spezialisierungen zur Auswahl, die im Allgemeinen in zwei Bereiche fallen: Telekommunikation und Signalverarbeitung sowie Energie- und Elektrotechnik. Als es an der Zeit war, zwischen diesen beiden zu wählen, entschied ich mich für Telekommunikation und Signalverarbeitung, weil sie der Art und Weise, wie wir die Natur durch Physik und Gleichungen beschreiben, näher kommen. Sie sprechen von Signalen, egal ob es sich um Audio, Bilder oder Video handelt; Wir verstehen, wie wir kommunizieren und was unsere Sinne wahrnehmen und wie wir diese Informationen mathematisch so darstellen können, dass wir dieses Wissen nutzen können, um Technologie zu entwickeln und zu verbessern.

Könnten Sie Ihre Forschung an der McGill University zum informationstheoretischen Aspekt der künstlichen Bandbreitenerweiterung (BWE) besprechen?

Nach Abschluss meines Bachelor-Studiums wollte ich den Bereich der Signalverarbeitung akademisch weiter verfolgen. Nachdem ich ein Jahr lang Photonik im Rahmen eines Masterstudiengangs in Physik studiert hatte, beschloss ich, wieder zum Ingenieurwesen zu wechseln, um meinen Master in Audio- und Sprachsignalverarbeitung mit Schwerpunkt auf Spracherkennung zu absolvieren. Als es an der Zeit war, meine Doktorarbeit zu schreiben, wollte ich mein Fachgebiet ein wenig auf die allgemeine Audio- und Sprachverarbeitung sowie die eng damit verbundenen Bereiche des maschinellen Lernens und der Informationstheorie erweitern, anstatt mich nur auf die Spracherkennungsanwendung zu konzentrieren.

Das Vehikel für meine Doktorarbeit war die Bandbreitenerweiterung der Schmalbandsprache. Unter Schmalbandsprache versteht man die herkömmliche Telefonsprache. Der Frequenzinhalt von Sprache reicht bis etwa 20 Kilohertz, der Großteil des Informationsinhalts konzentriert sich jedoch nur bis 4 Kilohertz. Unter Bandbreitenerweiterung versteht man die künstliche Erweiterung von Sprachinhalten von 3.4 Kilohertz, der oberen Frequenzgrenze der herkömmlichen Telefonie, auf darüber hinaus bis zu acht Kilohertz oder mehr. Um diesen fehlenden höherfrequenten Inhalt besser zu rekonstruieren, wenn nur der verfügbare Schmalbandinhalt vorhanden ist, muss man zunächst die gegenseitige Information zwischen Sprachinhalten in den beiden Frequenzbändern quantifizieren und diese Informationen dann verwenden, um ein Modell zu trainieren, das diese gemeinsamen Informationen lernt; Ein Modell, das, sobald es trainiert ist, dann zum Generieren von High-Band-Inhalten verwendet werden kann, wenn nur Schmalband-Sprache und das, was das Modell über die Beziehung zwischen dieser verfügbaren Schmalband-Sprache und dem fehlenden High-Band-Inhalt gelernt hat, vorhanden ist. Bei der Quantifizierung und Darstellung dieser gemeinsamen „gegenseitigen Informationen“ kommt die Informationstheorie ins Spiel. Die Informationstheorie ist die Untersuchung der Quantifizierung und Darstellung von Informationen in jedem Signal. Bei meiner Forschung ging es also darum, die Informationstheorie einzubeziehen, um die künstliche Bandbreitenerweiterung von Sprache zu verbessern. Daher war meine Doktorarbeit eher eine interdisziplinäre Forschungsaktivität, bei der ich Signalverarbeitung mit Informationstheorie und maschinellem Lernen kombinierte.

Sie waren über 16 Jahre lang leitender Sprachwissenschaftler bei Nuance Communications, heute Teil von Microsoft. Was waren Ihre wichtigsten Erkenntnisse aus dieser Erfahrung?

Aus meiner Sicht bestand der wichtigste Vorteil darin, dass ich immer an den neuesten und modernsten Techniken der Signalverarbeitung und des maschinellen Lernens arbeitete und diese Technologie auf reale Anwendungen anwendete. Ich hatte die Chance, diese Techniken auf Conversational AI-Produkte in mehreren Bereichen anzuwenden. Diese Bereiche reichten unter anderem von Unternehmen über Gesundheitswesen, Automobil und Mobilität. Zu den spezifischen Anwendungen gehörten virtuelle Assistenten, interaktive Sprachantworten, Voicemail-zu-Text und andere, bei denen eine ordnungsgemäße Darstellung und Transkription von entscheidender Bedeutung ist, beispielsweise im Gesundheitswesen bei Interaktionen zwischen Arzt und Patient. In diesen 16 Jahren hatte ich das Glück, die Entwicklung der Konversations-KI aus erster Hand mitzuerleben und Teil davon zu sein, von den Tagen der statistischen Modellierung mithilfe von Hidden-Markov-Modellen über die allmähliche Übernahme von Deep Learning bis hin zu der Zeit, in der sich Deep Learning stark verbreitet und fast alles dominiert Aspekte der KI, einschließlich generativer KI sowie traditioneller prädiktiver oder diskriminierender KI. Eine weitere wichtige Erkenntnis aus dieser Erfahrung ist die entscheidende Rolle, die Daten aufgrund ihrer Quantität und Qualität als wesentlicher Treiber für die Fähigkeiten und die Leistung von KI-Modellen spielen.

Sie haben ein Dutzend Artikel veröffentlicht, unter anderem in so renommierten Publikationen wie IEEE. Welches ist Ihrer Meinung nach das bahnbrechendste Papier, das Sie veröffentlicht haben, und warum war es wichtig?

Das einflussreichste Werk, gemessen an der Anzahl der Zitate laut Google Scholar, wäre ein Artikel aus dem Jahr 2008 mit dem Titel „Mel-Frequenz-Cepstralkoeffizient-basierte Bandbreitenerweiterung der Schmalbandsprache“. Auf hoher Ebene liegt der Schwerpunkt dieser Arbeit auf der Rekonstruktion von Sprachinhalten mithilfe einer Merkmalsdarstellung, die im Bereich der automatischen Spracherkennung (ASR) weit verbreitet ist, den Mel-Frequenz-Cepstralkoeffizienten.

Das innovativere Papier ist meiner Meinung nach jedoch das Papier mit den zweithäufigsten Zitaten, ein Papier aus dem Jahr 2011 mit dem Titel „Gedächtnisbasierte Approximation des Gaußschen Mischungsmodellrahmens zur Bandbreitenerweiterung von Schmalbandsprache„. In dieser Arbeit habe ich eine neue statistische Modellierungstechnik vorgeschlagen, die zeitliche Informationen in die Sprache einbezieht. Der Vorteil dieser Technik besteht darin, dass sie die Modellierung langfristiger Informationen in Sprache mit minimaler zusätzlicher Komplexität und auf eine Weise ermöglicht, die dennoch auch die Erzeugung von Breitbandsprache im Streaming- oder Echtzeitmodus ermöglicht.

Im Juni 2023 waren Sie als Vizepräsident für Technologie bei LXT eingestellt, was hat Sie an dieser Stelle gereizt?

Während meiner gesamten akademischen und beruflichen Erfahrung vor LXT habe ich immer direkt mit Daten gearbeitet. Tatsächlich war, wie ich bereits erwähnt habe, eine wichtige Erkenntnis aus meiner Arbeit mit Sprachwissenschaft und maschinellem Lernen die entscheidende Rolle, die Daten im Lebenszyklus von KI-Modellen spielen. Für den Erfolg hochmoderner, auf Deep Learning basierender KI war und ist die Verfügbarkeit ausreichender Qualitätsdaten im richtigen Format von entscheidender Bedeutung. Als ich mich also in einer Phase meiner Karriere befand, in der ich auf der Suche nach einem Startup-ähnlichen Umfeld war, in dem ich lernen, meine Fähigkeiten erweitern und meine Sprach- und KI-Erfahrung optimal nutzen konnte, hatte ich Glück die Möglichkeit zu haben, LXT beizutreten. Es hat perfekt gepasst. LXT ist nicht nur ein Anbieter von KI-Daten, der in einem beeindruckenden und konstanten Tempo wächst, sondern meiner Meinung nach befindet sich das Unternehmen auch in der perfekten Phase, was das Wachstum des KI-Know-hows sowie der Kundengröße und -vielfalt und damit der KI betrifft und KI-Datentypen. Ich habe die Gelegenheit genossen, an seinem Wachstumskurs mitzuwirken und ihn dabei zu unterstützen. eine große Wirkung zu erzielen, indem wir die Perspektive eines Datenendbenutzers einbringen, nachdem er all die Jahre ein KI-Datenwissenschaftler-Benutzer war.

Wie sieht Ihr durchschnittlicher Tag bei LXT aus?

Mein durchschnittlicher Tag beginnt damit, dass ich mich mit der neuesten Forschung zu dem einen oder anderen Thema befasse, das sich in letzter Zeit auf generative KI konzentriert, und wie wir diese auf die Bedürfnisse unserer Kunden anwenden können. Glücklicherweise verfüge ich über ein hervorragendes Team, das sehr geschickt darin ist, Lösungen für die oft speziellen KI-Datenanforderungen unserer Kunden zu entwickeln und anzupassen. Deshalb arbeite ich eng mit ihnen zusammen, um diese Agenda festzulegen.

Natürlich gibt es auch eine strategische Jahres- und Quartalsplanung, die Aufschlüsselung strategischer Ziele in einzelne Teamziele und die Verfolgung der Entwicklungen entlang dieser Pläne. Was die Feature-Entwicklung angeht, die wir durchführen, verfolgen wir im Allgemeinen zwei Technologiebereiche. Zum einen müssen wir sicherstellen, dass wir über die richtigen Voraussetzungen verfügen, um bei unseren aktuellen und neuen Projekten die besten Ergebnisse zu erzielen. Der andere Weg besteht darin, unsere technologischen Fähigkeiten zu verbessern und zu erweitern, wobei der Schwerpunkt auf der Integration von maschinellem Lernen liegt.

Könnten Sie die Arten von Algorithmen für maschinelles Lernen besprechen, an denen Sie bei LXT arbeiten?

Lösungen für künstliche Intelligenz verändern Unternehmen in allen Branchen, und wir bei LXT fühlen uns geehrt, die hochwertigen Daten bereitzustellen, um die Algorithmen für maschinelles Lernen zu trainieren, die sie antreiben. Unsere Kunden arbeiten an einer breiten Palette von Anwendungen, darunter Augmented und Virtual Reality, Computer Vision, Konversations-KI, generative KI, Suchrelevanz sowie Sprach- und natürliche Sprachverarbeitung (NLP). Unser Ziel ist es, die Algorithmen und Technologien des maschinellen Lernens der Zukunft durch Datengenerierung und -verbesserung in allen Sprachen, Kulturen und Modalitäten voranzutreiben.

Intern integrieren wir auch maschinelles Lernen, um unsere internen Prozesse zu verbessern und zu optimieren. Dies reicht von der Automatisierung unserer Datenqualitätsvalidierung bis hin zur Ermöglichung eines Human-in-the-Loop-Kennzeichnungsmodells für alle Datenmodalitäten, an denen wir arbeiten.

Die Sprach- und Audioverarbeitung nähert sich bei Englisch und insbesondere bei weißen Männern schnell der Perfektion. Wie lange wird es Ihrer Meinung nach dauern, bis gleiche Wettbewerbsbedingungen für alle Sprachen, Geschlechter und Ethnien herrschen?

Dies ist eine komplizierte Frage und hängt von einer Reihe von Faktoren ab, darunter unter anderem wirtschaftlicher, politischer, sozialer und technologischer Natur. Klar ist jedoch, dass die Verbreitung der englischen Sprache die KI dahin gebracht hat, wo wir heute stehen. Um also an einen Punkt zu gelangen, an dem gleiche Wettbewerbsbedingungen herrschen, hängt es wirklich von der Geschwindigkeit ab, mit der die Darstellung von Daten verschiedener Ethnien und Bevölkerungsgruppen online wächst, und die Geschwindigkeit, mit der sie wächst, wird darüber entscheiden, wann wir dort ankommen.

Allerdings können LXT und ähnliche Unternehmen einen großen Beitrag dazu leisten, dass wir gleiche Wettbewerbsbedingungen schaffen. Solange die Daten für weniger gut vertretene Sprachen, Geschlechter und Ethnien schwer zugänglich oder einfach nicht verfügbar sind, wird dieser Wandel langsamer vonstatten gehen. Aber wir versuchen unseren Teil beizutragen. Mit der Abdeckung von über 1,000 Sprachregionen und der Erfahrung in 145 Ländern trägt LXT dazu bei, den Zugriff auf mehr Sprachdaten zu ermöglichen.

Was ist Ihre Vision, wie LXT die KI-Bemühungen für verschiedene Kunden beschleunigen kann?

Unser Ziel bei LXT ist es, Datenlösungen bereitzustellen, die eine effiziente, genaue und schnellere KI-Entwicklung ermöglichen. Durch unsere 12-jährige Erfahrung im KI-Datenbereich haben wir nicht nur umfassendes Know-how über die Bedürfnisse unserer Kunden in Bezug auf alle Aspekte rund um Daten gesammelt, sondern auch unsere Prozesse kontinuierlich verfeinert, um Höchstleistungen zu erbringen Qualitätsdaten im schnellsten Tempo und zu den besten Preisen. Aufgrund unseres unermüdlichen Engagements, unseren Kunden die optimale Kombination aus KI-Datenqualität, Effizienz und Preisgestaltung zu bieten, sind wir zu einem vertrauenswürdigen KI-Datenpartner geworden, wie unsere Stammkunden beweisen, die immer wieder zu LXT zurückkehren, wenn es um ihre Kunden geht. wachsender und sich weiterentwickelnder Bedarf an KI-Daten. Meine Vision ist es, dieses LXT-„MO“ zu festigen, zu verbessern und auf alle Datenmodalitäten, an denen wir arbeiten, sowie auf alle Arten der KI-Entwicklung, die wir derzeit bedienen, einschließlich generativer KI, auszudehnen. Um dieses Ziel zu erreichen, müssen wir unsere eigenen maschinellen Lern- und Data-Science-Fähigkeiten strategisch ausbauen, sowohl in Bezug auf Technologie als auch auf Ressourcen.

Vielen Dank für das tolle Interview, Leser, die mehr erfahren möchten, sollten vorbeischauen LXT.

Ein Gründungspartner von unite.AI und Mitglied der Forbes Technology Council, Antoine ist ein Futurist der sich leidenschaftlich für die Zukunft von KI und Robotik interessiert.

Er ist auch der Gründer von Wertpapiere.io, eine Website, die sich auf Investitionen in bahnbrechende Technologien konzentriert.