стуб Анастасија Лукина, виши научник (НЛП/говор) у ЕТС-у - Серија интервјуа - Уните.АИ
Повежите се са нама

Интервјуи

Анастасија Лукина, виши истраживач (НЛП/говор) у ЕТС – серија интервјуа

mm
Ажурирано on

Анастасија Лукина је научни радник у Услуге образовног тестирања (ЕТС) где ради на аутоматизованом бодовању говора.

Њена истраживачка интересовања обухватају широк спектар тема. Радила је између осталог на дијалектима модерног грчког језика, ритму говора и аутоматизованој прозодијској анализи.

Њен тренутни рад се фокусира на комбиновање алата и метода из говорних технологија и машинског учења са увидима из студија о перцепцији/продукцији говора у циљу изградње аутоматизованих модела бодовања за процену говора који није матерњи језик.

Очигледно волите језике, шта вас је увело у ову страст?

Одрастао сам говорећи руски у Санкт Петербургу у Русији и сећам се да сам био фасциниран када сам се први пут упознао са енглеским језиком: за неке речи је постојао образац који је омогућио да се руска реч „претвори” у енглеску реч. А онда бих наишао на реч где „мој“ образац није успео и покушао бих да смислим боље, општије правило. У то време, наравно, нисам знао ништа о лингвистичкој типологији или разлици између сродних и позајмљених речи, али то је подстакло моју радозналост и жељу да научим више језика. Ова страст за идентификовањем образаца у начину на који људи говоре и тестирањем на подацима је оно што ме је довело до фонетике, машинског учења и посла који сада радим.

Пре вашег тренутног рада у Обради природног језика (НЛП) били сте преводилац са енглеско-руског и модерног грчко-руског. Верујете ли да вам је ваш посао преводиоца дао додатни увид у неке нијансе и проблеме повезане са НЛП-ом?

Мој примарни идентитет је увек био идентитет истраживача. Истина је да сам своју академску каријеру започео као проучавалац новогрчке, тачније, новогрчке фонетике. За мој докторски рад, истраживао сам фонетске разлике између неколико модерних грчких дијалеката и како се разлике између ових дијалеката могу повезати са историјом тог подручја. Тврдио сам да су неке од разлика између дијалеката могле настати као резултат језичког контакта између сваког дијалекта и других језика који се говоре у том подручју. Иако више не радим на модерном грчком, промене које се дешавају када два језика дођу у контакт један са другим су и даље у срцу мог рада: само овог пута се фокусирам на оно што се дешава када појединац учи нови језик и како технологија може помоћи да се ово уради најефикасније.

Када је енглески језик у питању, постоји безброј акцената. Како дизајнирати НЛП са могућношћу разумевања свих различитих дијалеката? Да ли је једноставна ствар да се алгоритам дубоког учења нахрани додатним великим подацима из сваке врсте акцента?

Постоји неколико приступа који су коришћени у прошлости за решавање овог проблема. Поред прављења једног великог модела који покрива све акценте, можете прво да идентификујете нагласак, а затим да користите прилагођени модел за овај акценат, или можете испробати више модела одједном и изабрати онај који најбоље функционише. На крају, да бисте постигли добар учинак на широком спектру акцента, потребни су вам подаци о обуци и евалуацији који представљају многе акценте са којима се систем може сусрести.

У ЕТС-у спроводимо свеобухватне процене како бисмо били сигурни да резултати које производе наши аутоматизовани системи одражавају разлике у стварним вештинама које желимо да измеримо и да на њих не утичу демографске карактеристике ученика као што су њихов пол, раса или земља порекла.

Деца и/или ученици језика често имају потешкоћа са савршеним изговором. Како превазилазите проблем са изговором?

Не постоји таква ствар као што је савршен изговор: начин на који говоримо је уско повезан са нашим идентитетом и као програмери и истраживачи наш циљ је да осигурамо да наши системи буду праведни према свим корисницима.

И они који уче језик и деца представљају посебне изазове за системе засноване на говору. На пример, дечији гласови не само да имају веома различит акустички квалитет, већ деца такође говоре другачије од одраслих и постоји много варијабилности међу децом. Као резултат тога, развој аутоматизованог препознавања говора за децу је обично посебан задатак који захтева велику количину података о говору детета.

Слично томе, иако постоји много сличности између ученика који уче језик из истог порекла, ученици могу да се разликују у великој мери у употреби фонетских, граматичких и лексичких образаца, што препознавање говора чини посебно изазовним задатком. Када градимо наше системе за бодовање знања енглеског језика, користимо податке оних који уче језике са широким спектром знања и матерњим језицима.

У јануару 2018. објавили сте 'Коришћење примерних одговора за обуку и процену аутоматизованих система за бодовање говора'. Које су неке од основних основа открића које треба разумети из овог рада?

У овом раду смо погледали како квалитет података о обуци и тестирању утиче на перформансе аутоматизованих система бодовања.

Аутоматски системи за бодовање, као и многи други аутоматизовани системи, обучени су на основу података који су означени за људе. У овом случају, ово су оцене које су доделили људи. Људски оцењивачи се не слажу увек у оценама које додељују. Постоји неколико различитих стратегија које се користе у процени како би се осигурало да коначни резултат који је пријављен испитанику остане веома поуздан упркос варијацијама у људском слагању на нивоу појединачног питања. Међутим, пошто се аутоматизовани системи за оцењивање обично обучавају коришћењем резултата на нивоу одговора, било какве недоследности у таквим оценама због различитих разлога који су горе наведени могу негативно утицати на систем.

Били смо у могућности да имамо приступ великој количини података са различитим договорима између људи који оцењују и да упоредимо перформансе система под различитим условима. Оно што смо открили је да обука система на савршеним подацима заправо не побољшава његове перформансе у односу на систем обучен на подацима са више бучним ознакама. Савршене ознаке вам дају предност само када је ваша укупна величина комплета за обуку веома мала. С друге стране, квалитет људских етикета је имао огроман утицај на процену система: ваше процене учинка могу бити и до 30% веће ако сте проценили на чистим етикетама.

Порука за понети је да ако имате пуно података и ресурса за чишћење налепница са златним стандардом, можда би било паметније очистити налепнице у скупу за евалуацију, а не налепнице у сету за обуку. И овај налаз се не односи само на аутоматизовано бодовање, већ и на многе друге области.

Можете ли описати неке од ваших послова у ЕТС-у?

Радим на систему за бодовање говора који обрађује говорни језик у образовном контексту. Један такав систем је СпеецхРатер®, који користи напредну технологију препознавања говора и анализе за процену и пружање детаљних повратних информација о знању енглеског језика. СпеецхРатер је веома зрела апликација која постоји више од 10 година. Градим моделе бодовања за различите апликације и радим са другим колегама широм ЕТС-а како бих осигурао да су наши резултати поуздани, фер и валидни за све који полажу тестове. Такође радимо са другим групама у ЕТС-у на континуираном праћењу перформанси система.

Поред одржавања и побољшања наших оперативних система, правимо прототип нових система. Један од пројеката због којих сам веома узбуђен је РелаиРеадер™: апликација дизајнирана да помогне читаоцима у развоју да стекну течност и самопоуздање. Када чита са РелаиРеадер-ом, корисник наизменично слуша и чита наглас књигу. Њихово очитавање се затим шаље на наше сервере да бисмо пружили повратне информације. Што се тиче обраде говора, главни изазов ове апликације је како измерити учење и пружити ефикасне и поуздане повратне информације ненаметљиво, без ометања читаочевог ангажмана са књигом.

Који је ваш омиљени део рада са ЕТС-ом?

Оно што ме је у почетку привукло ЕТС-у је то што је то непрофитна организација са мисијом да унапреди квалитет образовања за све људе широм света. Иако је, наравно, сјајно када истраживање доведе до производа, ценим што имам прилику да радим на пројектима који су темељније по природи, али ће помоћи у развоју производа у будућности. Такође ценим чињеницу да ЕТС веома озбиљно схвата питања као што су приватност и правичност података и да сви наши системи пролазе веома строгу процену пре него што буду оперативно распоређени.

Али оно што ЕТС заиста чини одличним местом за рад су његови људи. Имамо невероватну заједницу научника, инжењера и програмера из много различитих средина што омогућава много интересантне сарадње.

Да ли верујете да ће вештачка интелигенција икада моћи да прође Тјурингов тест?

Од 1950-их, било је много тумачења о томе како би Тјурингов тест требало да се уради у пракси. Вероватно постоји општа сагласност да Тјурингов тест није положен у филозофском смислу да не постоји систем вештачке интелигенције који размишља као човек. Међутим, ово је такође постало веома ниска тема. Већина људи не гради своје системе да би прошли Тјурингов тест – желимо да постигну одређене циљеве.

За неке од ових задатака, на пример, препознавање говора или разумевање природног језика, људски учинак се с правом може сматрати златним стандардом. Али постоје и многи други задаци где бисмо очекивали да аутоматизовани систем ради много боље од људи или где аутоматизовани систем и људски експерт морају да раде заједно да би постигли најбољи резултат. На пример, у образовном контексту не желимо да АИ систем замени наставника: желимо да помогне наставницима, било да се ради о идентификацији образаца у путањама учења ученика, помоћи у оцењивању или проналажењу најбољих наставних материјала.

Постоји ли још нешто што бисте желели да поделите о ЕТС-у или НЛП-у?

Многи људи познају ЕТС по његовим проценама и аутоматизованим системима бодовања. Али ми радимо много више од тога. Имамо много могућности од биометрије гласа до апликација за говорни дијалог и увек тражимо нове начине да интегришемо технологију у учење. Сада када многи студенти уче од куће, отворили смо неколико наших истраживачких могућности широј јавности.

Хвала вам на интервјуу и што сте понудили овај увид у најновија достигнућа у НЛП-у и препознавању говора. Свако ко жели да сазна више може да посети Услуге образовног тестирања.

Оснивачки партнер уните.АИ и члан Форбсов технолошки савет, Антоан је а футуристички који је страствен за будућност вештачке интелигенције и роботике.

Такође је оснивач Сецуритиес.ио, веб локација која се фокусира на улагање у дисруптивну технологију.