Интервјуи

Амр Ноур-Елдин, потпредседник технологије у ЛКСТ – Интервиев Сериес

Ажурирано on Октобар КСНУМКС, КСНУМКС

Амр Ноур-Елдин, потпредседник је технологије у ЛКСТ. Амр је доктор наука. научник истраживач са преко 16 година професионалног искуства у областима обраде говора/аудио и машинског учења у контексту аутоматског препознавања говора (АСР), са посебним фокусом и практичним искуством последњих година на техникама дубоког учења за крај стримовања -препознавање говора до краја.

ЛКСТ је лидер у настајању у подацима о обуци АИ за покретање интелигентне технологије за глобалне организације. У партнерству са међународном мрежом сарадника, ЛКСТ прикупља и бележи податке на више модалитета са брзином, размером и агилношћу коју захтева предузеће. Њихова глобална експертиза обухвата више од 145 земаља и преко 1000 језика.

Докторирали сте из обраде сигнала на Универзитету МцГилл, шта вас је у почетку занимало у овој области?

Одувек сам желео да студирам инжењерство и заиста сам волео природне науке уопште, али су ме посебно привлачиле математика и физика. Увек сам покушавао да схватим како природа функционише и како да применим то разумевање за стварање технологије. После средње школе, имао сам прилику да се бавим медицином и другим професијама, али сам се посебно определио за инжењерство јер је представљало савршену комбинацију у мом погледу и теорије и примене у две области које су ми најближе: математици и физици. А онда када сам га изабрао, постојало је много потенцијалних путева – механичких, грађанских и тако даље. Али, ја сам посебно одабрао електротехнику јер је најближи и најтежи по мом мишљењу оној врсти математичких и физичких проблема који су ми увек били изазовни и стога сам више уживао, као и да је основа модерне технологије која је увек покретала ја.

У оквиру електротехнике, постоје различите специјализације које можете изабрати, које генерално спадају под два кишобрана: телекомуникације и обрада сигнала и област енергетике и електротехнике. Када је дошло време да бирам између то двоје, одабрао сам телеком и обраду сигнала јер је то ближе начину на који описујемо природу кроз физику и једначине. Говорите о сигналима, било да су то аудио, слике или видео; разумевање начина на који комуницирамо и шта наша чула опажају, и како да математички представимо те информације на начин који нам омогућава да искористимо то знање за стварање и унапређење технологије.

Можете ли да продискутујете о свом истраживању на Универзитету МцГилл о информацијско-теоријском аспекту вештачког проширења пропусног опсега (БВЕ)?

Након што сам завршио диплому, желео сам да наставим да се бавим академским смером за обраду сигнала. Након годину дана студирања фотонике као део магистарског студија из физике, одлучио сам да се вратим на инжењерство да бих наставио мастер студије аудио и говорне обраде сигнала, фокусирајући се на препознавање говора. Када је дошло време да урадим докторат, желео сам да мало проширим своје поље на општу обраду звука и говора, као и на блиско повезана поља машинског учења и теорије информација, уместо да се фокусирам само на апликацију за препознавање говора.

Возило за мој докторат било је проширење пропусног опсега ускопојасног говора. Ускопојасни говор се односи на говор конвенционалне телефоније. Фреквенцијски садржај говора се протеже на око 20 килохерца, али је већина информативног садржаја концентрисана до само 4 килохерца. Проширење пропусног опсега се односи на вештачко проширење говорног садржаја са 3.4 килохерца, што је горња фреквенција ограничена у конвенционалној телефонији, на изнад тога, до осам килохерца или више. Да би се боље реконструисао тај недостајући садржај виших фреквенција с обзиром само на доступни садржај уског опсега, прво треба квантификовати међусобне информације између говорног садржаја у два фреквентна опсега, а затим користити те информације за обуку модела који учи те заједничке информације; модел који се, једном обучен, може користити за генерисање високопојасног садржаја дајући само ускопојасни говор и оно што је модел научио о односу између тог доступног ускопојасног говора и садржаја високог опсега који недостаје. Квантификовање и представљање те заједничке „међусобне информације“ је место где долази теорија информација. Теорија информација је студија квантификације и представљања информација у било ком сигналу. Дакле, моје истраживање се односило на инкорпорирање теорије информација за побољшање вештачког проширења пропусног опсега говора. Као такав, мој докторат је био више интердисциплинарна истраживачка активност у којој сам комбиновао обраду сигнала са теоријом информација и машинским учењем.

Били сте главни научник за говор у Нуанце Цоммуницатионс, сада део Мицрософта, више од 16 година, који су били неки од ваших кључних закључака из овог искуства?

Из моје перспективе, најважнија корист је била то што сам увек радио на најсавременијим, најсавременијим техникама у обради сигнала и машинском учењу и примени те технологије на апликације у стварном свету. Добио сам прилику да применим те технике на Цонверсатионал АИ производе у више домена. Ови домени су се кретали од предузећа, до здравства, аутомобилске индустрије и мобилности, између осталог. Неке од специфичних апликација укључивале су виртуелне асистенте, интерактивни гласовни одговор, говорну пошту у текст и друге где су правилна репрезентација и транскрипција критични, као што је здравствена заштита са интеракцијом лекара/пацијента. Током тих 16 година, имао сам срећу да свједочим из прве руке и будем дио еволуције конверзацијске АИ, од дана статистичког моделирања користећи скривене Марковљеве моделе, преко постепеног преузимања дубоког учења, до сада гдје се дубоко учење шири и доминира готово свим аспекте вештачке интелигенције, укључујући генеративну вештачку интелигенцију, као и традиционалну предиктивну или дискриминативну вештачку интелигенцију. Још један кључни закључак из тог искуства је кључна улога коју подаци играју, кроз квантитет и квалитет, као кључни покретач способности и перформанси АИ модела.

Објавили сте десетак радова, укључујући и хваљене публикације као што је ИЕЕЕ. По вашем мишљењу, који је најпреломнији рад који сте објавили и зашто је био важан?

Најутицајнији, по броју цитата према Гоогле Сцхолар-у, био би рад из 2008. под насловом „Проширење пропусног опсега ускопојасног говора засновано на кепстралном коефицијенту Мел-фреквенције”. На високом нивоу, фокус овог рада је на томе како реконструисати говорни садржај користећи репрезентацију обележја која се широко користи у области аутоматског препознавања говора (АСР), мел-фреквенцијских цепстрал коефицијената.

Међутим, по мом мишљењу, иновативнији рад је рад са другим по броју цитата, рад из 2011. под насловом „Апроксимација Гаусове мешавине оквира модела заснована на меморији за проширење пропусног опсега ускопојасног говора“. У том раду предложио сам нову технику статистичког моделирања која инкорпорира временске информације у говор. Предност те технике је у томе што омогућава моделирање дугорочних информација у говору са минималном додатном сложеношћу и на начин који и даље омогућава генерисање широкопојасног говора у стримингу или у реалном времену.

У јуну 2023. били сте регрутован као потпредседник технологије у ЛКСТ-у, шта вас је привукло овој позицији?

Током свог академског и професионалног искуства пре ЛКСТ-а, увек сам радио директно са подацима. У ствари, као што сам раније приметио, један кључни закључак за мене из мог рада са науком о говору и машинским учењем била је кључна улога података у животном циклусу АИ модела. Поседовање довољно квалитетних података у правом формату било је и остаје кључно за успех врхунске вештачке интелигенције засноване на дубоком учењу. Као такав, када сам се нашао у фази своје каријере у којој сам тражио окружење попут стартап-а у којем бих могао да учим, проширим своје вештине, као и да искористим свој говор и искуство вештачке интелигенције како бих имао највећи утицај, имао сам среће да имају прилику да се придруже ЛКСТ-у. Било је савршено. Не само да је ЛКСТ добављач АИ података који расте импресивним и доследним темпом, већ сам га такође видео као у савршеној фази у смислу раста знања АИ, као и величине и разноликости клијената, а тиме и АИ и АИ типови података. Уживао сам у прилици да се придружим и помогнем на његовом путу раста; имати велики утицај доносећи перспективу крајњег корисника података након што је био корисник АИ научника свих тих година.

Како изгледа ваш просечан дан у ЛКСТ-у?

Мој просечан дан почиње проучавањем најновијих истраживања о једној или другој теми, која су се у последње време усредсредила на генеративну вештачку интелигенцију, и како то можемо применити на потребе наших купаца. Срећом, имам одличан тим који је веома вешт у креирању и прилагођавању решења за често специјализоване потребе АИ података наших клијената. Дакле, блиско сарађујем са њима на постављању тог дневног реда.

Ту је, наравно, и стратешко годишње и тромесечно планирање, и рашчлањивање стратешких циљева на појединачне тимске циљеве и праћење развоја у складу са тим плановима. Што се тиче развоја карактеристика који радимо, генерално имамо два технолошка правца. Један је да се уверимо да имамо праве делове на месту за постизање најбољих резултата на нашим тренутним и новим долазећим пројектима. Други правац је побољшање и проширење наших технолошких могућности, са фокусом на укључивање машинског учења у њих.

Можете ли да разговарате о типовима алгоритама машинског учења на којима радите у ЛКСТ-у?

Решења вештачке интелигенције трансформишу предузећа у свим индустријама, а нама у ЛКСТ-у је част да обезбедимо висококвалитетне податке за обуку алгоритама машинског учења који их покрећу. Наши клијенти раде на широком спектру апликација, укључујући проширену и виртуелну стварност, компјутерски вид, конверзациону вештачку интелигенцију, генеративну вештачку интелигенцију, релевантност претраге и обраду говора и природног језика (НЛП), између осталог. Посвећени смо покретању алгоритама и технологија машинског учења будућности кроз генерисање и побољшање података на сваком језику, култури и модалитету.

Интерно, такође укључујемо машинско учење да бисмо побољшали и оптимизовали наше интерне процесе, у распону од аутоматизације валидације наших података до омогућавања модела означавања „људи у петљи“ у свим модалитетима података на којима радимо.

Обрада говора и звука се брзо приближава савршенству када су у питању енглески, а посебно белци. Колико очекујете да ће проћи док не буде равноправан терен за све језике, родове и етничке групе?

Ово је компликовано питање и зависи од бројних фактора, укључујући економске, политичке, друштвене и технолошке, између осталих. Али оно што је јасно јесте да је распрострањеност енглеског језика оно што је довело вештачку интелигенцију тамо где смо сада. Дакле, да бисмо дошли до места где су једнаки терени заиста зависи од брзине којом расте заступљеност података различитих етничких група и популација на мрежи, а темпо којим расте је оно што ће одредити када тамо стигнемо.

Међутим, ЛКСТ и сличне компаније могу имати велику улогу у вођењу нас ка равноправнијим условима. Све док је тешко приступити подацима за мање заступљене језике, родове и етничке припадности или једноставно недоступни, та промена ће долазити спорије. Али ми покушавамо да урадимо свој део. Са покривеношћу за преко 1,000 језичких језика и искуством у 145 земаља, ЛКСТ помаже да се омогући приступ више језичких података.

Која је ваша визија како ЛКСТ може убрзати напоре АИ за различите клијенте?

Наш циљ у ЛКСТ-у је да обезбедимо решења за податке која омогућавају ефикасан, тачан и бржи развој вештачке интелигенције. Кроз наше 12 година искуства у АИ простору података, не само да смо акумулирали обимно знање о потребама клијената у погледу свих аспеката који се односе на податке, већ смо такође континуирано фино подешавали наше процесе како бисмо пружили највише квалитетне податке најбржим темпом и најбоље цене. Сходно томе, као резултат наше сталне посвећености пружању нашим клијентима оптималне комбинације квалитета АИ података, ефикасности и цена, постали смо поуздани партнер за АИ података, што је видљиво по нашим сталним клијентима који се стално враћају у ЛКСТ заувек растуће и еволуирајуће потребе за подацима АИ. Моја визија је да цементирам, побољшам и проширим тај ЛКСТ „МО“ на све модалитете података на којима радимо, као и на све врсте развоја АИ којима сада служимо, укључујући генеративну АИ. Постизање овог циља се врти око стратешког проширења сопствених могућности машинског учења и науке о подацима, како у погледу технологије тако и ресурса.

Хвала вам на одличном интервјуу, читаоци који желе да сазнају више треба да посете ЛКСТ.

Повезане теме:Интервју ЛКСТ

Уп Нект

Џеф Кофман, оснивач и извршни директор компаније Тринт – серија интервјуа

Не пропустите

Целина Лее, извршна директорица и суоснивач Зинди – Интервиев Сериес

Антоан Тардиф

Оснивачки партнер уните.АИ и члан Форбсов технолошки савет, Антоан је а футуристички који је страствен за будућност вештачке интелигенције и роботике.

Такође је оснивач Сецуритиес.ио, веб локација која се фокусира на улагање у дисруптивну технологију.

Уните.АИ

Амр Ноур-Елдин, потпредседник технологије у ЛКСТ – Интервиев Сериес

Интервјуи

Амр Ноур-Елдин, потпредседник технологије у ЛКСТ – Интервиев Сериес

Преглед садржаја

Уните.АИ

Амр Ноур-Елдин, потпредседник технологије у ЛКСТ – Интервиев Сериес

Преглед садржаја

Можда вам се свидја