interjúk

Amr Nour-Eldin, az LXT technológiai alelnöke – Interjúsorozat

korszerűsített on Október 12, 2023

Amr Nour-Eldin, a cég technológiai alelnöke LXT kiterjesztés. Amr Ph.D. kutató, több mint 16 éves szakmai tapasztalattal a beszéd/audio feldolgozás és gépi tanulás területén az automatikus beszédfelismerés (ASR) összefüggésében, különös tekintettel és az elmúlt évek gyakorlati tapasztalataira a streaming célú mély tanulási technikák terén -végig beszédfelismerés.

LXT kiterjesztés feltörekvő vezető szerepet tölt be a mesterséges intelligencia képzési adatok terén, hogy intelligens technológiát biztosítson a globális szervezetek számára. A közreműködők nemzetközi hálózatával együttműködve az LXT a vállalat által megkívánt sebességgel, nagyságrenddel és agilitással többféle módon gyűjti és jegyzi az adatokat. Globális szakértelmük több mint 145 országra és több mint 1000 nyelvi területre terjed ki.

PhD fokozatot szerzett jelfeldolgozásból a McGill Egyetemen, mi érdekelte kezdetben ezen a területen?

Mindig is mérnököt szerettem volna tanulni, és nagyon szerettem a természettudományokat általában, de kifejezetten a matematika és a fizika vonzott. Azon kaptam magam, hogy mindig próbálom kitalálni, hogyan működik a természet, és hogyan alkalmazhatom ezt a tudást a technológia létrehozására. A középiskola után lehetőségem nyílt arra, hogy orvosi és más szakmák felé menjek, de kifejezetten a mérnöki pályát választottam, mivel ez tökéletes kombinációt jelentett az elmélet és az alkalmazás szempontjából a szívemhez legközelebb álló két területen: a matematikában és a fizikában. És miután ezt választottam, sok lehetséges út volt – mechanikus, civil stb. De kifejezetten az elektrotechnikát választottam, mert ez áll a legközelebb, és véleményem szerint a legnehezebb a matematikai és fizikai problémákhoz, amelyeket mindig is kihívásnak találtam, és ezért jobban élveztem, valamint a modern technológia alapja, amely mindig is vezérelte. nekem.

Az elektrotechnikán belül különféle szakirányok közül lehet választani, amelyek általában két esernyő alá esnek: a távközlés és jelfeldolgozás, valamint az energia- és elektrotechnika. Amikor eljött az idő, hogy a kettő közül válasszak, a távközlést és a jelfeldolgozást választottam, mert ez közelebb áll ahhoz, ahogyan a természetet fizikán és egyenleteken keresztül írjuk le. Ön jelekről beszél, legyen szó hangról, képről vagy videóról; annak megértése, hogyan kommunikálunk és mit érzékelnek érzékszerveink, és hogyan ábrázoljuk matematikailag ezeket az információkat oly módon, hogy lehetővé tegye számunkra, hogy ezeket a tudást technológia létrehozására és fejlesztésére fordítsuk.

Meg tudná beszélni a McGill Egyetemen végzett kutatását a mesterséges sávszélesség-kiterjesztés (BWE) információelméleti vonatkozásairól?

Miután befejeztem az alapképzést, tovább akartam folytatni a jelfeldolgozást. Miután egy év fotonikát tanultam a fizika mesterképzés részeként, úgy döntöttem, hogy visszaváltok a mérnöki pályára, és folytatom a hang- és beszédjelfeldolgozás mesterképzését, a beszédfelismerésre összpontosítva. Amikor eljött a doktori fokozat megszerzésének ideje, egy kicsit ki akartam terjeszteni a területemet az általános hang- és beszédfeldolgozásra, valamint a gépi tanulás és információelmélet szorosan kapcsolódó területeire, ahelyett, hogy csak a beszédfelismerő alkalmazásra koncentrálnék.

Doktori disszertációm eszköze a keskeny sávú beszéd sávszélesség-kiterjesztése volt. A keskeny sávú beszéd a hagyományos telefonos beszédre utal. A beszéd frekvenciatartalma körülbelül 20 kilohertzig terjed, de az információtartalom nagy része mindössze 4 kilohertzig koncentrálódik. A sávszélesség-bővítés a beszédtartalom mesterséges kiterjesztését jelenti 3.4 kilohertzről, amely a hagyományos telefonálás felső frekvenciája, e fölött nyolc kilohertzre vagy annál nagyobbra. A hiányzó magasabb frekvenciájú tartalom jobb rekonstrukciója érdekében, ha csak a rendelkezésre álló keskeny sávú tartalmat vesszük figyelembe, először számszerűsíteni kell a két frekvenciasávban lévő beszédtartalom közötti kölcsönös információt, majd ezt az információt felhasználni egy olyan modell képzésére, amely megtanulja ezt a megosztott információt; egy modell, amely a betanítás után felhasználható felső sávú tartalom előállítására, csak keskeny sávú beszéd esetén, és amit a modell megtanult az elérhető keskeny sávú beszéd és a hiányzó felső sávú tartalom közötti kapcsolatról. Az információelmélet a megosztott „kölcsönös információ” számszerűsítésében és reprezentációjában lép be. Az információelmélet az információ bármilyen jelben történő számszerűsítésének és megjelenítésének tanulmányozása. Kutatásom tehát az információelmélet beépítésére irányult a beszéd mesterséges sávszélesség-kiterjesztésének javítására. Mint ilyen, a doktori fokozatom inkább egy interdiszciplináris kutatási tevékenység volt, ahol a jelfeldolgozást az információelmélettel és a gépi tanulással kombináltam.

Több mint 16 éven át volt a Nuance Communications vezető beszédtudósa, amely jelenleg a Microsoft része. Mik voltak a legfontosabb gondolatok ebből a tapasztalatból?

Az én szemszögemből a legfontosabb előny az volt, hogy mindig a legkorszerűbb, élvonalbeli jelfeldolgozási és gépi tanulási technikákon dolgoztam, és ezt a technológiát alkalmaztam a valós alkalmazásokban. Lehetőségem nyílt arra, hogy ezeket a technikákat a Conversational AI-termékekre alkalmazzam több területen. Ezek a területek többek között a vállalkozástól az egészségügyig, az autóiparig és a mobilitásig terjedtek. Néhány konkrét alkalmazás tartalmazta a virtuális asszisztenseket, az interaktív hangreakciót, a szöveges hangpostát, és másokat, ahol a megfelelő megjelenítés és átírás kritikus fontosságú, például az egészségügyi ellátásban az orvos/beteg interakciókban. A 16 év során szerencsés voltam, hogy első kézből szemtanúja lehettem és részese lehettem a társalgási mesterséges intelligencia fejlődésének, a Rejtett Markov-modelleket használó statisztikai modellezés napjaitól a Deep Learning fokozatos átvételén át egészen napjainkig, ahol a mély tanulás elterjed és uralja szinte az összeset. a mesterséges intelligencia szempontjai, beleértve a generatív AI-t, valamint a hagyományos prediktív vagy megkülönböztető MI-t. Ennek a tapasztalatnak egy másik kulcsfontosságú eleme az a döntő szerep, amelyet az adatok a mennyiségen és a minőségen keresztül az AI-modell képességeinek és teljesítményének kulcsfontosságú mozgatórugójaként játszanak.

Tucatnyi dolgozatot publikált, köztük olyan elismert kiadványokban, mint az IEEE. Véleménye szerint melyik a legáttörőbb tanulmány, amelyet közzétett, és miért volt ez fontos?

A Google Tudós szerint az idézetek száma alapján a leghatásosabb egy 2008-as tanulmány, melynek címe „A keskeny sávú beszéd mel-frekvenciás cepstral együttható alapú sávszélesség-kiterjesztése”. Magas szinten ennek a tanulmánynak a középpontjában a beszédtartalom rekonstrukciója áll az automatikus beszédfelismerés (ASR) területén széles körben használt jellemző-reprezentáció segítségével, mel-frekvenciás cepstralis együtthatók.

Mindazonáltal az innovatívabb lap véleményem szerint a második legtöbb idézetet tartalmazó lap, egy 2011-es cikk a „A Gauss-féle keverékmodell keretrendszerének memória alapú közelítése a keskeny sávú beszéd sávszélesség-kiterjesztésére“. Ebben a munkában egy új statisztikai modellezési technikát javasoltam, amely beépíti az időbeli információkat a beszédbe. Ennek a technikának az az előnye, hogy lehetővé teszi a hosszú távú információ beszédben történő modellezését minimális további bonyolultsággal, és olyan módon, amely továbbra is lehetővé teszi a szélessávú beszéd streaming vagy valós idejű generálását.

2023 júniusában te voltál felvették az LXT technológiai alelnökévé, mi vonzotta ebbe a pozícióba?

Az LXT előtti tudományos és szakmai tapasztalataim során mindig közvetlenül az adatokkal dolgoztam. Valójában, amint azt korábban megjegyeztem, a beszédtudomány és a gépi tanulás terén végzett munkám egyik kulcsfontosságú eleme számomra az adatoknak az AI modell életciklusában játszott döntő szerepe volt. A legkorszerűbb, mély tanuláson alapuló mesterséges intelligencia sikeréhez elengedhetetlen volt, és továbbra is az, hogy megfelelő formátumban elegendő minőségű adat álljon rendelkezésre. Mint ilyen, amikor karrieremnek egy olyan szakaszában voltam, ahol olyan startup-szerű környezetet kerestem, ahol tanulhatok, bővíthetem készségeimet, valamint beszédemet és mesterséges intelligenciatapasztalatamat a legnagyobb hatás érdekében, szerencsés voltam. hogy lehetősége legyen csatlakozni az LXT-hez. Ez volt a tökéletes illeszkedés. Az LXT nemcsak lenyűgöző és következetes ütemben növekszik AI-adatszolgáltató, hanem úgy láttam, hogy a tökéletes szakaszban van a mesterséges intelligencia know-how-jának, valamint az ügyfelek méretének és sokszínűségének, és így az AI növekedésének is. és AI adattípusok. Örültem a lehetőségnek, hogy csatlakozhattam növekedési útjához, és segíthettem abban; hogy nagy hatást érjen el azáltal, hogy az adatok végfelhasználóinak szemszögét hozza magával, miután sok éven át AI-adattudós felhasználó volt.

Hogyan néz ki egy átlagos napod az LXT-nél?

Átlagos napom azzal kezdődik, hogy megvizsgálom az egyik vagy másik témával kapcsolatos legújabb kutatásokat, amelyek az utóbbi időben a generatív mesterséges intelligencia köré összpontosulnak, és hogyan tudjuk ezt alkalmazni ügyfeleink igényeire. Szerencsére van egy kiváló csapatom, akik nagyon ügyesek abban, hogy megoldásokat hozzanak létre és szabjanak ügyfeleink gyakran speciális mesterségesintelligencia-adatszükségleteihez. Tehát szorosan együttműködöm velük a napirend meghatározásában.

Természetesen van stratégiai éves és negyedéves tervezés is, valamint a stratégiai célok egyedi csapatcélokra bontása és a tervek mentén történő fejlesztések követése. Ami az általunk végzett funkciófejlesztést illeti, általában két technológiai pályánk van. Az egyik az, hogy megbizonyosodjunk arról, hogy a megfelelő darabok állnak rendelkezésünkre, hogy a legjobb eredményeket érhessük el jelenlegi és új bejövő projektjeink során. A másik pálya a technológiai képességeink fejlesztése és bővítése, különös tekintettel a gépi tanulás beépítésére.

Meg tudná beszélni, hogy milyen típusú gépi tanulási algoritmusokon dolgozik az LXT-nél?

A mesterséges intelligencia-megoldások minden iparágban átalakítják a vállalkozásokat, és mi, az LXT-nél megtiszteltetés számunkra, hogy kiváló minőségű adatokat szolgáltathatunk az őket működtető gépi tanulási algoritmusok betanításához. Ügyfeleink számos alkalmazáson dolgoznak, többek között a kiterjesztett és a virtuális valóságon, a számítógépes látáson, a társalgási AI-n, a generatív AI-n, a keresési relevancián, valamint a beszéd- és természetes nyelvi feldolgozáson (NLP). Elkötelezettek vagyunk a jövő gépi tanulási algoritmusainak és technológiáinak meghajtása mellett, adatgeneráláson és -fejlesztésen keresztül minden nyelven, kultúrán és módozaton.

Belsőleg a gépi tanulást is beépítjük belső folyamataink javítása és optimalizálása érdekében, kezdve az adatminőség-ellenőrzésünk automatizálásától egészen a humán-in-the-loop címkézési modell lehetővé tételéig minden adatmóddal, amelyen dolgozunk.

A beszéd- és hangfeldolgozás rohamosan közeledik a tökéletességhez, ha az angol és különösen a fehér férfiakról van szó. Mit gondol, mennyi ideig tart, amíg minden nyelven, nemen és etnikai hovatartozáson egyenlő feltételeket biztosítanak?

Ez egy bonyolult kérdés, és számos tényezőtől függ, többek között gazdasági, politikai, társadalmi és technológiai tényezőktől. De az világos, hogy az angol nyelv elterjedtsége az, ami a mesterséges intelligencia oda vezetett, ahol most tartunk. Tehát, hogy egy olyan helyre kerüljünk, ahol egyenlőek a versenyfeltételek, az valóban attól függ, hogy a különböző etnikumokhoz és populációkhoz tartozó adatok megjelenítése milyen sebességgel nő az interneten, és a növekedés üteme határozza meg, hogy mikor érünk oda.

Az LXT és a hasonló cégek azonban nagy szerepet játszhatnak abban, hogy egyenlőbb versenyfeltételek felé tereljenek bennünket. Mindaddig, amíg a kevésbé jól reprezentált nyelvek, nemek és etnikumok adatai nehezen hozzáférhetők vagy egyszerűen nem állnak rendelkezésre, addig ez a változás lassabban fog bekövetkezni. De igyekszünk megtenni a részünket. Több mint 1,000 nyelvi lefedettséggel és 145 országban szerzett tapasztalattal az LXT több nyelvi adathoz való hozzáférést tesz lehetővé.

Mi az elképzelése arról, hogy az LXT hogyan tudja felgyorsítani a mesterséges intelligencia erőfeszítéseit a különböző ügyfelek számára?

Az LXT-nél az a célunk, hogy olyan adatmegoldásokat kínáljunk, amelyek lehetővé teszik a hatékony, pontos és gyorsabb AI-fejlesztést. Az AI-adattérben szerzett 12 éves tapasztalatunk révén nemcsak széleskörű know-how-t halmoztunk fel ügyfeleink igényeiről az adatokkal kapcsolatos minden vonatkozásban, hanem folyamatainkat is folyamatosan finomhangoltuk, hogy a legmagasabb színvonalat biztosítsuk. minőségi adatok a leggyorsabb ütemben és a legjobb áron. Következésképpen az ügyfeleinknek az AI-adatok minőségének, hatékonyságának és árának optimális kombinációját biztosító szilárd elkötelezettségünk eredményeként megbízható mesterségesintelligencia-adatpartnerek lettünk, amint azt visszatérő ügyfeleink is bizonyítják, akik folyamatosan visszatérnek az LXT-hez. növekvő és fejlődő AI-adatigények. Az a vízióm, hogy bebetonozzam, javítsam és kiterjesszem az LXT „MO”-t az összes adatmóddal, amelyen dolgozunk, valamint az általunk jelenleg kiszolgált mindenfajta AI-fejlesztésre, beleértve a generatív MI-t is. E cél elérése saját gépi tanulási és adattudományi képességeink stratégiai bővítése körül forog, mind a technológia, mind az erőforrások tekintetében.

Köszönjük a remek interjút, azoknak az olvasóknak, akik többet szeretnének megtudni, látogassanak el LXT kiterjesztés.