Interviews
Amr Nour-Eldin, Vizepräsident für Technologie bei LXT – Interviewreihe

Amr Nour-Eldin ist Vizepräsident für Technologie bei LXT. Amr ist ein Ph.D. Forschungswissenschaftler mit über 16 Jahren Berufserfahrung in den Bereichen Sprach-/Audioverarbeitung und maschinelles Lernen im Kontext der automatischen Spracherkennung (ASR), mit besonderem Schwerpunkt und praktischer Erfahrung in den letzten Jahren auf Deep-Learning-Techniken für Streaming-Ende -End-Spracherkennung.
LXT ist ein aufstrebender Marktführer im Bereich KI-Trainingsdaten zur Unterstützung intelligenter Technologie für globale Organisationen. In Zusammenarbeit mit einem internationalen Netzwerk von Mitwirkenden sammelt und kommentiert LXT Daten über mehrere Modalitäten hinweg mit der Geschwindigkeit, dem Umfang und der Agilität, die das Unternehmen benötigt. Ihre globale Expertise erstreckt sich über mehr als 145 Länder und über 1000 Sprachregionen.
Sie haben an der McGill University in Signalverarbeitung promoviert. Was hat Sie ursprünglich an diesem Bereich interessiert?
Ich wollte schon immer Ingenieurwesen studieren und mochte Naturwissenschaften im Allgemeinen sehr, fühlte mich aber besonders zu Mathematik und Physik hingezogen. Ich versuchte immer herauszufinden, wie die Natur funktioniert und wie ich dieses Verständnis anwenden kann, um Technologie zu schaffen. Nach dem Abitur hatte ich die Möglichkeit, Medizin und andere Berufe zu ergreifen, entschied mich aber gezielt für das Ingenieurwesen, da es meiner Ansicht nach die perfekte Kombination aus Theorie und Anwendung in den beiden Bereichen darstellte, die mir am meisten am Herzen liegen: Mathematik und Physik. Und nachdem ich mich dafür entschieden hatte, gab es viele mögliche Wege – Maschinenbau, Bauwesen und so weiter. Aber ich entschied mich gezielt für Elektrotechnik, weil sie den mathematischen und physikalischen Problemen, die ich schon immer herausfordernd fand und die mir daher mehr Spaß machten, am nächsten kommt und meiner Meinung nach am schwierigsten ist. Außerdem bildet sie die Grundlage der modernen Technologie, die mich schon immer angetrieben hat.
Innerhalb der Elektrotechnik gibt es verschiedene Spezialisierungen, die im Allgemeinen unter zwei Oberbegriffe fallen: Telekommunikation und Signalverarbeitung sowie Energie- und Elektrotechnik. Als ich mich zwischen diesen beiden Bereichen entscheiden musste, habe ich mich für Telekommunikation und Signalverarbeitung entschieden, weil dies der Art und Weise, wie wir die Natur mithilfe von Physik und Gleichungen beschreiben, am nächsten kommt. Es geht um Signale, ob Audio, Bild oder Video; darum zu verstehen, wie wir kommunizieren und was unsere Sinne wahrnehmen, und wie wir diese Informationen mathematisch darstellen können, um dieses Wissen für die Entwicklung und Verbesserung von Technologien zu nutzen.
Könnten Sie Ihre Forschung an der McGill University zum informationstheoretischen Aspekt der künstlichen Bandbreitenerweiterung (BWE) besprechen?
Nach meinem Bachelorabschluss wollte ich mich akademisch weiter mit der Signalverarbeitung beschäftigen. Nach einem Jahr Photonik-Studium im Rahmen meines Masterstudiums in Physik entschied ich mich, wieder ins Ingenieurwesen zu wechseln und meinen Master in Audio- und Sprachsignalverarbeitung mit Schwerpunkt Spracherkennung zu absolvieren. Für meine Promotion wollte ich mein Fachgebiet etwas erweitern und mich nicht nur auf die Anwendung der Spracherkennung konzentrieren, sondern auch auf die allgemeine Audio- und Sprachverarbeitung sowie die eng verwandten Bereiche des maschinellen Lernens und der Informationstheorie.
Das Vehikel für meine Doktorarbeit war die Bandbreitenerweiterung der Schmalbandsprache. Unter Schmalbandsprache versteht man die herkömmliche Telefonsprache. Der Frequenzinhalt von Sprache reicht bis etwa 20 Kilohertz, der Großteil des Informationsinhalts konzentriert sich jedoch nur bis 4 Kilohertz. Unter Bandbreitenerweiterung versteht man die künstliche Erweiterung von Sprachinhalten von 3.4 Kilohertz, der oberen Frequenzgrenze der herkömmlichen Telefonie, auf darüber hinaus bis zu acht Kilohertz oder mehr. Um diesen fehlenden höherfrequenten Inhalt besser zu rekonstruieren, wenn nur der verfügbare Schmalbandinhalt vorhanden ist, muss man zunächst die gegenseitige Information zwischen Sprachinhalten in den beiden Frequenzbändern quantifizieren und diese Informationen dann verwenden, um ein Modell zu trainieren, das diese gemeinsamen Informationen lernt; Ein Modell, das, sobald es trainiert ist, dann zum Generieren von High-Band-Inhalten verwendet werden kann, wenn nur Schmalband-Sprache und das, was das Modell über die Beziehung zwischen dieser verfügbaren Schmalband-Sprache und dem fehlenden High-Band-Inhalt gelernt hat, vorhanden ist. Bei der Quantifizierung und Darstellung dieser gemeinsamen „gegenseitigen Informationen“ kommt die Informationstheorie ins Spiel. Die Informationstheorie ist die Untersuchung der Quantifizierung und Darstellung von Informationen in jedem Signal. Bei meiner Forschung ging es also darum, die Informationstheorie einzubeziehen, um die künstliche Bandbreitenerweiterung von Sprache zu verbessern. Daher war meine Doktorarbeit eher eine interdisziplinäre Forschungsaktivität, bei der ich Signalverarbeitung mit Informationstheorie und maschinellem Lernen kombinierte.
Sie waren über 16 Jahre lang leitender Sprachwissenschaftler bei Nuance Communications, heute Teil von Microsoft. Was waren Ihre wichtigsten Erkenntnisse aus dieser Erfahrung?
Aus meiner Sicht bestand der wichtigste Vorteil darin, dass ich immer an den neuesten und modernsten Techniken der Signalverarbeitung und des maschinellen Lernens arbeitete und diese Technologie auf reale Anwendungen anwendete. Ich hatte die Chance, diese Techniken auf Conversational AI-Produkte in mehreren Bereichen anzuwenden. Diese Bereiche reichten unter anderem von Unternehmen über Gesundheitswesen, Automobil und Mobilität. Zu den spezifischen Anwendungen gehörten virtuelle Assistenten, interaktive Sprachantworten, Voicemail-zu-Text und andere, bei denen eine ordnungsgemäße Darstellung und Transkription von entscheidender Bedeutung ist, beispielsweise im Gesundheitswesen bei Interaktionen zwischen Arzt und Patient. In diesen 16 Jahren hatte ich das Glück, die Entwicklung der Konversations-KI aus erster Hand mitzuerleben und Teil davon zu sein, von den Tagen der statistischen Modellierung mithilfe von Hidden-Markov-Modellen über die allmähliche Übernahme von Deep Learning bis hin zu der Zeit, in der sich Deep Learning stark verbreitet und fast alles dominiert Aspekte der KI, einschließlich generativer KI sowie traditioneller prädiktiver oder diskriminierender KI. Eine weitere wichtige Erkenntnis aus dieser Erfahrung ist die entscheidende Rolle, die Daten aufgrund ihrer Quantität und Qualität als wesentlicher Treiber für die Fähigkeiten und die Leistung von KI-Modellen spielen.
Sie haben ein Dutzend Artikel veröffentlicht, unter anderem in so renommierten Publikationen wie IEEE. Welches ist Ihrer Meinung nach das bahnbrechendste Papier, das Sie veröffentlicht haben, und warum war es wichtig?
Das einflussreichste Werk, gemessen an der Anzahl der Zitate laut Google Scholar, wäre ein Artikel aus dem Jahr 2008 mit dem Titel „Mel-Frequenz-Cepstralkoeffizient-basierte Bandbreitenerweiterung der Schmalbandsprache“. Auf hoher Ebene liegt der Schwerpunkt dieser Arbeit auf der Rekonstruktion von Sprachinhalten mithilfe einer Merkmalsdarstellung, die im Bereich der automatischen Spracherkennung (ASR) weit verbreitet ist, den Mel-Frequenz-Cepstralkoeffizienten.
Das innovativere Papier ist meiner Meinung nach jedoch das Papier mit den zweithäufigsten Zitaten, ein Papier aus dem Jahr 2011 mit dem Titel „Gedächtnisbasierte Approximation des Gaußschen Mischungsmodellrahmens zur Bandbreitenerweiterung von Schmalbandsprache„. In dieser Arbeit habe ich eine neue statistische Modellierungstechnik vorgeschlagen, die zeitliche Informationen in die Sprache einbezieht. Der Vorteil dieser Technik besteht darin, dass sie die Modellierung langfristiger Informationen in Sprache mit minimaler zusätzlicher Komplexität und auf eine Weise ermöglicht, die dennoch auch die Erzeugung von Breitbandsprache im Streaming- oder Echtzeitmodus ermöglicht.
Im Juni 2023 waren Sie als Vizepräsident für Technologie bei LXT eingestellt, was hat Sie an dieser Stelle gereizt?
Während meiner gesamten akademischen und beruflichen Erfahrung vor LXT habe ich immer direkt mit Daten gearbeitet. Tatsächlich war, wie ich bereits erwähnt habe, eine wichtige Erkenntnis aus meiner Arbeit mit Sprachwissenschaft und maschinellem Lernen die entscheidende Rolle, die Daten im Lebenszyklus von KI-Modellen spielen. Für den Erfolg hochmoderner, auf Deep Learning basierender KI war und ist die Verfügbarkeit ausreichender Qualitätsdaten im richtigen Format von entscheidender Bedeutung. Als ich mich also in einer Phase meiner Karriere befand, in der ich auf der Suche nach einem Startup-ähnlichen Umfeld war, in dem ich lernen, meine Fähigkeiten erweitern und meine Sprach- und KI-Erfahrung optimal nutzen konnte, hatte ich Glück die Möglichkeit zu haben, LXT beizutreten. Es hat perfekt gepasst. LXT ist nicht nur ein Anbieter von KI-Daten, der in einem beeindruckenden und konstanten Tempo wächst, sondern meiner Meinung nach befindet sich das Unternehmen auch in der perfekten Phase, was das Wachstum des KI-Know-hows sowie der Kundengröße und -vielfalt und damit der KI betrifft und KI-Datentypen. Ich habe die Gelegenheit genossen, an seinem Wachstumskurs mitzuwirken und ihn dabei zu unterstützen. eine große Wirkung zu erzielen, indem wir die Perspektive eines Datenendbenutzers einbringen, nachdem er all die Jahre ein KI-Datenwissenschaftler-Benutzer war.
Wie sieht Ihr durchschnittlicher Tag bei LXT aus?
Mein Tag beginnt normalerweise damit, mich mit den neuesten Forschungsergebnissen zu verschiedenen Themen zu beschäftigen. In letzter Zeit dreht es sich dabei vor allem um generative KI und wie wir diese auf die Bedürfnisse unserer Kunden anwenden können. Glücklicherweise verfüge ich über ein hervorragendes Team, das sehr versiert darin ist, Lösungen zu entwickeln und auf die oft speziellen KI-Datenanforderungen unserer Kunden zuzuschneiden. Daher arbeite ich eng mit ihnen zusammen, um diese Agenda festzulegen.
Hinzu kommt natürlich die strategische Jahres- und Quartalsplanung, die Aufschlüsselung strategischer Ziele in individuelle Teamziele und die Verfolgung der Entwicklungen entlang dieser Pläne. Bei der Funktionsentwicklung verfolgen wir grundsätzlich zwei technologische Schwerpunkte. Einerseits stellen wir sicher, dass wir die richtigen Komponenten einsetzen, um bei unseren aktuellen und neuen Projekten optimale Ergebnisse zu erzielen. Andererseits verbessern und erweitern wir unsere technologischen Fähigkeiten, wobei wir uns auf die Integration von maschinellem Lernen konzentrieren.
Könnten Sie die Arten von Algorithmen für maschinelles Lernen besprechen, an denen Sie bei LXT arbeiten?
Lösungen für künstliche Intelligenz verändern Unternehmen in allen Branchen, und wir bei LXT fühlen uns geehrt, die hochwertigen Daten bereitzustellen, um die Algorithmen für maschinelles Lernen zu trainieren, die sie antreiben. Unsere Kunden arbeiten an einer breiten Palette von Anwendungen, darunter Augmented und Virtual Reality, Computer Vision, Konversations-KI, generative KI, Suchrelevanz sowie Sprach- und natürliche Sprachverarbeitung (NLP). Unser Ziel ist es, die Algorithmen und Technologien des maschinellen Lernens der Zukunft durch Datengenerierung und -verbesserung in allen Sprachen, Kulturen und Modalitäten voranzutreiben.
Auch intern setzen wir maschinelles Lernen ein, um unsere internen Prozesse zu verbessern und zu optimieren. Dies reicht von der Automatisierung unserer Datenqualitätsvalidierung bis hin zur Ermöglichung eines Human-in-the-Loop-Kennzeichnungsmodells für alle Datenmodalitäten, mit denen wir arbeiten.
Die Sprach- und Audioverarbeitung nähert sich bei Englisch und insbesondere bei weißen Männern schnell der Perfektion. Wie lange wird es Ihrer Meinung nach dauern, bis gleiche Wettbewerbsbedingungen für alle Sprachen, Geschlechter und Ethnien herrschen?
Diese Frage ist kompliziert und hängt von zahlreichen Faktoren ab, darunter wirtschaftlichen, politischen, sozialen und technologischen. Klar ist jedoch, dass die Verbreitung der englischen Sprache die KI dorthin gebracht hat, wo wir heute stehen. Ob wir faire Wettbewerbsbedingungen erreichen, hängt also maßgeblich davon ab, wie schnell die Repräsentation von Daten verschiedener Ethnien und Bevölkerungsgruppen online zunimmt. Und dieses Tempo wird darüber entscheiden, wann wir dort ankommen.
Allerdings können LXT und ähnliche Unternehmen einen großen Beitrag dazu leisten, dass wir gleiche Wettbewerbsbedingungen schaffen. Solange die Daten für weniger gut vertretene Sprachen, Geschlechter und Ethnien schwer zugänglich oder einfach nicht verfügbar sind, wird dieser Wandel langsamer vonstatten gehen. Aber wir versuchen unseren Teil beizutragen. Mit der Abdeckung von über 1,000 Sprachregionen und der Erfahrung in 145 Ländern trägt LXT dazu bei, den Zugriff auf mehr Sprachdaten zu ermöglichen.
Was ist Ihre Vision, wie LXT die KI-Bemühungen für verschiedene Kunden beschleunigen kann?
Unser Ziel bei LXT ist es, Datenlösungen bereitzustellen, die eine effiziente, präzise und schnelle KI-Entwicklung ermöglichen. Durch unsere 12-jährige Erfahrung im KI-Datenbereich haben wir nicht nur umfassendes Know-how über die Bedürfnisse unserer Kunden in allen datenbezogenen Aspekten erworben, sondern auch unsere Prozesse kontinuierlich optimiert, um Daten höchster Qualität schnellstmöglich und zu den besten Preisen zu liefern. Dank unseres unermüdlichen Engagements, unseren Kunden die optimale Kombination aus KI-Datenqualität, Effizienz und Preis zu bieten, sind wir zu einem vertrauenswürdigen KI-Datenpartner geworden. Dies bestätigen unsere Stammkunden, die sich mit ihrem stetig wachsenden und sich weiterentwickelnden KI-Datenbedarf immer wieder an LXT wenden. Meine Vision ist es, diese LXT-Methode zu festigen, zu verbessern und auf alle von uns bearbeiteten Datenmodalitäten sowie auf alle Arten der KI-Entwicklung auszuweiten, die wir bereits bedienen, einschließlich generativer KI. Um dieses Ziel zu erreichen, müssen wir unsere eigenen Fähigkeiten im Bereich Machine Learning und Data Science sowohl technologisch als auch ressourcenmäßig strategisch erweitern.
Vielen Dank für das tolle Interview, Leser, die mehr erfahren möchten, sollten vorbeischauen LXT.












