стуб Евалуација великих језичких модела: Технички водич - Уните.АИ
Повежите се са нама

Вештачка интелигенција

Евалуација великих језичких модела: Технички водич

mm

објављен

 on

Евалуација великих језичких модела

Велики језички модели (ЛЛМ) као што су ГПТ-4, Цлауде и ЛЛаМА су експлодирали у популарности. Захваљујући њиховој способности да генеришу импресивно људски текст, ови системи вештачке интелигенције се сада користе за све, од креирања садржаја до чет робота за корисничку подршку.

Али како да знамо да ли су ови модели заиста добри? Како се нови ЛЛМ стално најављују, а сви тврде да су већи и бољи, како да проценимо и упоредимо њихов учинак?

У овом свеобухватном водичу ћемо истражити врхунске технике за процену великих језичких модела. Погледаћемо предности и недостатке сваког приступа, када их је најбоље применити и како их можете искористити у сопственом ЛЛМ тестирању.

Специфичне метрике задатка

Један од најједноставнијих начина за процену ЛЛМ-а је да га тестирате на утврђеним задацима НЛП-а користећи стандардизоване метрике. На пример:

Сажимање

За задатке сумирања, метрике попут ЦРВЕНА (Рецалл-Ориентед Ундерстуди фор Гистинг Евалуатион) се обично користе. РОУГЕ упоређује резиме генерисан моделом са резимеом „референце“ који је написао човек, рачунајући преклапање речи или фраза.

Постоји неколико укуса РОУГЕ-а, сваки са својим предностима и недостацима:

  • РОУГЕ-Н: Упоређује преклапање н-грама (секвенце од Н речи). РОУГЕ-1 користи униграме (појединачне речи), РОУГЕ-2 користи биграме, итд. Предност је што хвата ред речи, али може бити превише строг.
  • РОУГЕ-Л: Засновано на најдужој заједничкој подсеквенци (ЛЦС). Флексибилнији у погледу реда речи, али се фокусира на главне тачке.
  • РОУГЕ-В: Тежине ЛЦС утакмица по њиховом значају. Покушаји побољшања РОУГЕ-Л.

Генерално, РОУГЕ метрике су брзе, аутоматске и добро функционишу за системске резимее рангирања. Међутим, они не мере кохерентност или значење. Резиме би могао да добије висок РОУГЕ резултат и да и даље буде бесмислен.

Формула за РОУГЕ-Н је:

РОУГЕ-Н=∑∈{Референтни резимеи}∑∑�∈{Референтни резимеи}∑

Где:

  • Count_{match}(gram_n) је број н-грама у генерисаном и референтном резимеу.
  • Count(gram_n) је број н-грама у референтном сажетку.

На пример, за РОУГЕ-1 (униграми):

  • Генерисани резиме: „Мачка је седела.“
  • Референтни сажетак: "Мачка је седела на простирци."
  • Униграми који се преклапају: „Тхе”, „цат”, „сат”
  • РОУГЕ-1 резултат = 3/5 = 0.6

РОУГЕ-Л користи најдужу заједничку подсеквенцу (ЛЦС). Флексибилнији је са редоследом речи. Формула је:

РОУГЕ-Л=���(генерисана,референца)мак (дужина(генерисана), дужина(референца))

Где LCS је дужина најдужег заједничког подниза.

РОУГЕ-В тежине ЛЦС подударања. Разматра значај сваке утакмице у ЛЦС.

превод

За задатке машинског превођења, Блеу (Билингуал Евалуатион Ундерстуди) је популарна метрика. БЛЕУ мери сличност између излазног превода модела и професионалних људских превода, користећи прецизност н-грама и казну краткоће.

Кључни аспекти како БЛЕУ функционише:

  • Упоређује преклапања н-грама за н до 4 (униграми, биграми, триграми, 4-грами).
  • Израчунава геометријску средину прецизности од н-грама.
  • Примењује казну краткоће ако је превод много краћи од референце.
  • Генерално се креће од 0 до 1, при чему је 1 савршено подударање са референцом.

БЛЕУ прилично добро корелира са људским просудбама о квалитету превода. Али и даље има ограничења:

  • Мери само прецизност према референцама, а не опозив или Ф1.
  • Бори се са креативним преводима користећи различите формулације.
  • Подложан „игрању“ са преводилачким триковима.

Друге метрике превођења као што су МЕТЕОР и ТЕР покушавају да побољшају слабости БЛЕУ-а. Али генерално, аутоматске метрике не обухватају у потпуности квалитет превода.

Остали задаци

Поред сумирања и превода, метрике као што су Ф1, тачност, МСЕ и још много тога могу се користити за процену учинка ЛЛМ на задацима као што су:

  • Класификација текста
  • Екстракција информација
  • Одговарање на питање
  • Анализа сентимента
  • Откривање граматичке грешке

Предност метрика специфичних за задатак је у томе што евалуација може бити потпуно аутоматизована коришћењем стандардизованих скупова података као што је СКуАД за КА и лепак мерило за низ задатака. Резултати се лако могу пратити током времена како се модели побољшавају.

Међутим, ови показатељи су уско фокусирани и не могу да мере укупан квалитет језика. ЛЛМ који добро раде на метрикама за један задатак можда неће успети у генерисању кохерентног, логичног, корисног текста уопште.

Мерила истраживања

Популаран начин за процену ЛЛМ-а је да их тестирате у односу на широка истраживања која покривају различите теме и вештине. Ова мерила омогућавају да се модели брзо тестирају у обиму.

Нека добро позната мерила су:

  • Супер лепак – Изазовни сет од 11 различитих језичких задатака.
  • лепак – Збирка од 9 задатака за разумевање реченица. Једноставније од СуперГЛУЕ-а.
  • ММЛУ – 57 различитих СТЕМ, друштвених и хуманистичких задатака. Тестира знање и способност расуђивања.
  • Виноград Сцхема Цхалленге – Проблеми са решавањем заменица који захтевају здраворазумско резоновање.
  • АРЦ – Изазовни задаци расуђивања природног језика.
  • Хелласваг – Здраворазумско размишљање о ситуацијама.
  • ПИКА – Питања из физике која захтевају дијаграме.

Оцењујући оваква мерила, истраживачи могу брзо да тестирају моделе на њихову способност да изводе математику, логику, расуђивање, кодирање, здрав разум и још много тога. Проценат питања на која је тачно одговорено постаје референтна метрика за поређење модела.

Међутим, главни проблем са мерилима је контаминација података о обуци. Многа мерила садрже примере које су модели већ видели током пре-тренинга. Ово омогућава моделима да „меморисати” одговоре на конкретна питања и раде боље од својих стварних могућности.

Покушава се да се „деконтаминирати” референтне вредности уклањањем преклапајућих примера. Али ово је изазовно учинити свеобухватно, посебно када су модели можда видели парафразиране или преведене верзије питања.

Дакле, иако бенчмаркови могу ефикасно тестирати широк скуп вештина, они не могу поуздано да измере праве способности расуђивања или избегну инфлацију резултата због контаминације. Потребне су комплементарне методе евалуације.

ЛЛМ Селф-Евалуатион

Интригантан приступ је да ЛЛМ процени резултате другог ЛЛМ. Идеја је да се искористи концепт „лакшег“ задатка:

  • Стварање висококвалитетног резултата може бити тешко за ЛЛМ.
  • Али утврђивање да ли је дати резултат високог квалитета може бити лакши задатак.

На пример, док се ЛЛМ може борити да генерише чињенични, кохерентан параграф од нуле, може лакше да процени да ли дати параграф има логичан смисао и да ли се уклапа у контекст.

Дакле, процес је:

  1. Проследите упит за унос првом ЛЛМ-у да бисте генерисали излаз.
  2. Проследите упит за унос + генерисани излаз другом „оцењивачу“ ЛЛМ.
  3. Поставите питање евалуатору ЛЛМ да процени квалитет резултата. нпр. „Да ли горњи одговор има логичног смисла?“

Овај приступ је брз за имплементацију и аутоматизује ЛЛМ евалуацију. Али постоје неки изазови:

  • Учинак у великој мери зависи од избора евалуатора ЛЛМ и брзих формулација.
  • Ограничено тежином оригиналног задатка. Процена сложеног резоновања и даље је тешко за ЛЛМ.
  • Може бити рачунарски скупо ако користите ЛЛМ засноване на АПИ-ју.

Самоевалуација је посебно обећавајућа за процену преузетих информација у РАГ (генерација са проширеним проналажењем) система. Додатни ЛЛМ упити могу потврдити да ли се преузети контекст користи на одговарајући начин.

Све у свему, самоевалуација показује потенцијал, али захтева пажњу у примени. Она допуњује, а не замењује, људску евалуацију.

Хуман Евалуатион

С обзиром на ограничења аутоматизованих метрика и мерила, људска евалуација је и даље златни стандард за ригорозну процену квалитета ЛЛМ.

Стручњаци могу дати детаљне квалитативне процене о:

  • Тачност и чињенична исправност
  • Логика, резоновање и здрав разум
  • Кохерентност, доследност и читљивост
  • Прикладност тона, стила и гласа
  • Граматичност и течност
  • Креативност и нијансе

Да би проценили модел, људима се даје скуп упитника за унос и ЛЛМ генерисани одговори. Они процењују квалитет одговора, често користећи скале оцењивања и рубрике.

Лоша страна је у томе што је ручна људска евалуација скупа, спора и тешко скалабилна. Такође захтева развој стандардизованих критеријума и обуку оцењивача да их доследно примењују.

Неки истраживачи су истражили креативне начине за групно финансирање људских ЛЛМ евалуација користећи системе у стилу турнира где се људи кладе и суде у мечевима између модела. Али покривеност је и даље ограничена у поређењу са пуним ручним проценама.

За случајеве пословне употребе где је квалитет важнији од сировог обима, стручно тестирање на људима остаје златни стандард упркос својим трошковима. Ово посебно важи за ризичније примене ЛЛМ-а.

Zakljucak

Темељно вредновање великих језичких модела захтева коришћење разноврсног комплета комплементарних метода, уместо да се ослања на било коју појединачну технику.

Комбиновањем аутоматизованих приступа за брзину са ригорозним људским надзором тачности, можемо развити поуздане методологије тестирања за велике језичке моделе. Уз робусну евалуацију, можемо откључати огроман потенцијал ЛЛМ-а док одговорно управљамо њиховим ризицима.

Провео сам последњих пет година урањајући се у фасцинантан свет машинског учења и дубоког учења. Моја страст и стручност довели су ме до тога да допринесем преко 50 различитих пројеката софтверског инжењеринга, са посебним фокусом на АИ/МЛ. Моја стална радозналост ме је такође привукла ка обради природног језика, пољу које желим даље да истражујем.