стуб Генерисање парафразе коришћењем дубоког учења са појачањем – Лидери мисли – Уните.АИ
Повежите се са нама

Вештачка интелигенција

Генерисање парафразе коришћењем дубоког учења са појачањем – вође мисли

mm
Ажурирано on

Када пишемо или разговарамо, сви смо се питали да ли постоји бољи начин да се идеја пренесе другима. Које речи треба да користим? Како да структурирам мисао? Како ће вероватно реаговати? Ат Фразе, проводимо много времена размишљајући о језику – шта ради, а шта не.

Замислите да пишете наслов за кампању е-поште која ће отићи до 10 милиона људи на вашој листи и промовише 20% попуста на фенси нови лаптоп.

Коју линију бисте изабрали:

  • Сада можете узети додатних 20% попуста на следећу поруџбину
  • Припремите се – додатних 20% попуста

Иако преносе исте информације, један је постигао скоро 15% већу стопу отварања од другог (и кладим се да не можете победити наш модел у предвиђању који?). Док се језик често може тестирати кроз / Б тестирање or вишеруки разбојници, аутоматско генерисање парафраза остаје заиста изазован истраживачки проблем.

Две реченице се сматрају парафразама једне друге ако деле исто значење и могу се користити наизменично. Још једна важна ствар која се често узима здраво за готово јесте да ли је реченица генерисана машином течна.

За разлику од учења под надзором, агенти за учење са појачањем (РЛ) уче кроз интеракцију са својим окружењем и посматрајући награде које добијају као резултат. Ова донекле нијансирана разлика има огромне импликације на то како алгоритми функционишу и како се модели обучавају. Учење дубоког ојачања користи неуронске мреже као апроксиматор функције да би омогућио агенту да научи како да надмаши људе у сложеним окружењима као што је Go, Атари и СтарЦрафт ИИ.

Упркос овом успеху, учење са појачањем није широко примењено на проблеме у стварном свету, укључујући обраду природног језика (НЛП).

Као део мог Магистарска теза из науке о подацима, демонстрирамо како се Дееп РЛ може користити за надмашивање надгледаних метода учења у аутоматском генерисању парафраза улазног текста. Проблем генерисања најбоље парафразе може се посматрати као проналажење низа речи које максимизирају семантичку сличност између реченица уз одржавање течности у излазу. РЛ агенти су веома погодни за проналажење најбољег скупа акција за постизање максималне очекиване награде у контролним окружењима.

За разлику од већине проблема у машинском учењу, највећи проблем у већини апликација за генерисање природног језика (НЛГ) не лежи у моделирању већ у евалуацији. Док се људска евалуација тренутно сматра златним стандардом у НЛГ евалуацији, она пати од значајних недостатака укључујући скупо, дуготрајно, изазовно подешавање и недостатак поновљивости у експериментима и скуповима података (Хан, 2016). Као резултат тога, истраживачи су дуго тражили аутоматске метрике које су једноставне, генерализљиве и које одражавају људско расуђивање (Папинени ет ал., 2002).

Најчешћи методи аутоматске евалуације у процени машински генерисаних натписа слика су сумирани у наставку са њиховим предностима и недостацима:

Генерисање парафразе коришћењем цевовода за учење за појачавање

Развили смо систем под називом ПараПхрасее који генерише висококвалитетне парафразе. Систем се састоји од више корака у циљу примене учења поткрепљења на рачунарски ефикасан начин. Кратак резиме цевовода на високом нивоу је приказан испод са више детаља садржаних у теза.

Датасет

Постоји неколико парафразираних скупова података који се користе у истраживању укључујући: Корпус Мицрософт Парапхрасе, АЦЛ такмичење у сличности семантичког текста, Куора дупликат питања, и Твиттер дељене везе. Одабрали смо МС-ЦОЦО с обзиром на његову величину, чистоћу и употребу као мерило за два значајна парафразирана генерисања рада. МС-ЦОЦО садржи 120 хиљада слика уобичајених сцена са 5 натписа слика по слици које обезбеђује 5 различитих људских анотатора.

Иако је првенствено дизајниран за истраживање компјутерског вида, наслови имају велику семантичку сличност и занимљиве су парафразе. С обзиром на то да натписе на сликама дају различити људи, они имају тенденцију да имају мале варијације у детаљима приказаним у сцени, па генерисане реченице имају тенденцију да халуцинирају детаље.

Надгледани модел

Док је учење са појачањем значајно побољшано у смислу ефикасности узорка, времена обуке и укупне најбоље праксе, обука РЛ модела од нуле је још увек релативно спора и нестабилна (Арулкумаран ет ал., 2017). Стога, уместо да тренирамо од нуле, прво обучавамо надгледани модел, а затим га фино подешавамо користећи РЛ.

Користимо ан Енцодер-Децодер оквир модела и процени перформансе неколико основних надгледаних модела. Када фино подешавамо модел користећи РЛ, ми само фино подешавамо мрежу декодера и третирамо мрежу енкодера као статичку. Као такви, сматрамо два главна оквира:

  • Обука надзираног модела од нуле користећи стандардни/ванилин декодер декодер са ГРУ-овима
  • Коришћење унапред обучених модела уграђивања реченица за кодер укључујући: обједињене уградње речи (ГлоВе), ИнферСент и БЕРТ

Надзирани модели имају тенденцију да раде прилично слично у свим моделима са БЕРТ-ом и ванил енкодер-декодером који постижу најбоље перформансе.

Иако перформансе имају тенденцију да буду разумне, постоје три уобичајена извора грешака: муцање, генерисање фрагмената реченица и халуцинације. Ово су главни проблеми које коришћење РЛ има за циљ да реши.

Модел учења са појачањем

Имплементација РЛ алгоритама је веома изазовна, посебно када не знате да ли се проблем може решити. Могу постојати проблеми у имплементацији вашег окружења, ваших агената, ваших хиперпараметара, функције награђивања или комбинације свега горе наведеног! Ови проблеми се погоршавају када радите дубоки РЛ док се забављате додатном сложеношћу отклањање грешака у неуронским мрежама.

Као и код сваког отклањања грешака, кључно је да почни једноставно. Имплементирали смо варијације два добро схваћена играчка РЛ окружења (ЦартПоле и ФрозенЛаке) да тестирамо РЛ алгоритме и пронађемо поновљиву стратегију за пренос знања из надгледаног модела.

Открили смо да користећи ан Алгоритам глумац-критичар надмашио РЕИНФОРЦЕ у овим окружењима. У смислу преношења знања на модел глумац-критичар, открили смо да је иницијализација глумчевих тежина обученим моделом под надзором и претходна обука критичара постигла најбољи учинак. Нашли смо изазов да генерализујемо софистициране приступе дестилације политике на нова окружења јер они уводе много нових хиперпараметара који захтевају подешавање да би функционисали.

Подржани овим увидима, онда се окрећемо развоју приступа за задатак генерисања парафразе. Прво треба да створимо окружење.

Окружење нам омогућава да лако тестирамо утицај коришћења различитих метрика евалуације као функција награђивања.

Затим дефинишемо агента, с обзиром на његове бројне предности, користимо архитектуру актер-критичар. Глумац се користи да изабере следећу реч у низу и има своје тежине иницијализоване коришћењем надгледаног модела. Критичар даје процену очекиване награде коју ће држава вероватно добити да би помогла глумцу да научи.

Дизајнирање праве функције награђивања

Најважнија компонента дизајнирања РЛ система је функција награђивања јер је то оно што РЛ агент покушава да оптимизује. Ако је функција награђивања нетачна, онда ће резултати патити чак и ако сваки други део система ради!

Класичан пример овога је ЦоастРуннерс где су истраживачи ОпенАИ поставили функцију награђивања као максимизирање укупног резултата, а не победу у трци. Резултат овога је да је агент открио петљу у којој би могао да добије највиши резултат ударањем турбо мотора, а да никада није завршио трку.

ЦоастРуннерс 7

С обзиром на то да је процена квалитета парафраза само по себи нерешен проблем, још је теже дизајнирати функцију награђивања која аутоматски обухвата овај циљ. Већина аспеката језика се не разлажу лепо у линеарне метрике и зависе од задатка (Новикова и др., 2017).

РЛ агент често открива интересантну стратегију за максимизирање награда која користи слабости у метрици евалуације уместо да генерише текст високог квалитета. Ово има тенденцију да резултира лошим учинком на метрикама које агент не оптимизује директно.

Сматрамо три главна приступа:

  1. Метрике преклапања речи

Уобичајене метрике НЛП евалуације узимају у обзир пропорцију преклапања речи између генерисане парафразе и евалуационе реченице. Што је веће преклапање, већа је и награда. Изазов са приступима на нивоу речи је што агент укључује превише повезујућих речи као што је „а је на“ и нема мере течности. Ово резултира парафразама веома ниског квалитета.

  1. Показатељи сличности и течности на нивоу реченице

Главна својства генерисане парафразе су да мора бити течна и семантички слична улазној реченици. Због тога покушавамо да их експлицитно оценимо појединачно, а затим комбинујемо метрику. За семантичку сличност користимо косинусну сличност између уграђивања реченица из унапред обучених модела укључујући БЕРТ. За течност користимо резултат заснован на збуњености реченице из ГПТ-2. Што је већа косинусна сличност и резултати течности, то је већа награда.

Испробали смо много различитих комбинација модела за уграђивање реченица и модела течности и иако су перформансе биле разумне, главни проблем са којим се агент суочио није био довољно балансирање семантичке сличности са течним. За већину конфигурација, агент је дао приоритет течности што резултира уклањањем детаља и већином ентитета који се постављају „у средину“ нечега или се премештају „на сто“ или „на страну пута“.

Вишециљно учење са појачањем је отворено истраживачко питање и у овом случају је веома изазовно.

  1. Коришћење супротстављеног модела као функције награде

С обзиром да се људи сматрају златним стандардом у евалуацији, обучавамо посебан модел који се зове дискриминатор да предвиди да ли су две реченице парафразе једна друге (слично на начин на који би човек проценио). Циљ РЛ модела је да убеди овај модел да је генерисана реченица парафраза улаза. Дискриминатор генерише резултат о томе колико је вероватно да ће две реченице бити парафразе једна друге, што се користи као награда за обуку агента.

Сваких 5,000 нагађања дискриминатору се каже која је парафраза дошла из скупа података и која је генерисана како би могао да побољша своја будућа нагађања. Процес се наставља неколико рунди са агентом који покушава да превари дискриминатора и дискриминатором који покушава да направи разлику између генерисаних парафраза и парафраза евалуације из скупа података.

После неколико рунди обуке, агент генерише парафразе које надмашују надгледане моделе и друге функције награђивања.

Закључак и ограничења

Супарнички приступи (укључујући само-играње за игре) пружају изузетно обећавајући приступ за обуку РЛ алгоритама да надмаше перформансе људског нивоа на одређеним задацима без дефинисања експлицитне функције награђивања.

Док је РЛ у овом случају успео да надмаши надгледано учење, количина додатних трошкова у смислу кода, израчунавања и сложености није вредна повећања перформанси за већину апликација. РЛ је најбоље препустити ситуацијама у којима се надгледано учење не може лако применити, а функцију награђивања је лако дефинисати (као што су Атари игре). Приступи и алгоритми су далеко зрелији у надгледаном учењу, а сигнал грешке је много јачи што резултира много бржим и стабилнијим тренингом.

Друго разматрање је, као и код других неуронских приступа, да агент може веома драматично да пропадне у случајевима када се инпут разликује од улаза које је претходно видео, што захтева додатни ниво провере исправности за производне апликације.

Експлозија интересовања за РЛ приступе и напредак у рачунарској инфраструктури у последњих неколико година отвориће огромне могућности за примену РЛ у индустрији, посебно у оквиру НЛП-а.

Андрев Гиббс-Браво је Дата Сциентист у Фразе фокусиран на побољшање технологије која стоји иза Пхрасее-јевог водећег светског копирања заснованог на вештачкој интелигенцији. Он је такође суорганизатор Лондонског састанка заједнице за учење за појачање и заинтересован је за све ствари РЛ, НЛП и машинско учење.