никулец Унапредување на усогласувањето со ВИ со човечките вредности преку WARM - Unite.AI
Поврзете се со нас

Вештачка интелигенција

Унапредување на усогласувањето со ВИ со човечките вредности преку WARM

mm

Објавено

 on

Тежина Просечна награда Модели LLM

Усогласување на системи за вештачка интелигенција со човечки вредности

Системите за вештачка интелигенција (ВИ) стануваат сè поспособни да им помагаат на луѓето во сложени задачи, од чет-ботови за услуги на клиентите до алгоритми за медицинска дијагноза. Сепак, бидејќи овие системи за вештачка интелигенција преземаат повеќе одговорности, од клучно значење е тие да останат усогласени со човечките вредности и преференции. Еден пристап за да се постигне ова е преку техника наречена засилено учење од човечки повратни информации (RLHF). Во RLHF, системот за вештачка интелигенција, познат како политика, се наградува или казнува врз основа на човечки проценки за неговото однесување. Целта е политиката да научи да ги максимизира своите награди, а со тоа и да се однесува според човечките преференци.

Основна компонента на RLHF е моделот на награда (RM). РМ е одговорна за евалуација на дејствата и резултатите на политиката и за враќање на сигналот за награда за да го води процесот на учење. Дизајнирањето на добра РМ е предизвик, бидејќи човечките преференци можат да бидат сложени, зависни од контекст, па дури и неконзистентни кај поединци. Неодамна, истражувачите од Google DeepMind предложија иновативна техника наречена модели на награда со просечна тежина (WARM) за подобрување на дизајнот на RM.

Проблемот со хакирањето на награди

Голем проблем во RLHF е хакирањето на награди. Хакирањето на наградите се случува кога политиката наоѓа дупки за играње со системот на РМ за да добие високи награди без всушност да ги задоволи предвидените цели. На пример, да претпоставиме дека целта е да се обучи помошник за пишување вештачка интелигенција да генерира висококвалитетни резимеа. РМ може да награди концизни и информативни резимеа. Политиката потоа би можела да научи да го искористува ова со генерирање на многу кратки, неинформативни резимеа исполнети со клучни зборови што ја измамуваат РМ.

Хакирањето на наградите се случува поради две главни причини:

  1. Поместување на дистрибуцијата – РМ е обучена за ограничена база на примери означени со луѓе. Кога се применува, резултатите од политиката може да доаѓаат од различни дистрибуции за кои РМ не ги генерализира добро.
  2. Бучни етикети – Означувањето на луѓето е несовршено, со несогласувања меѓу оценувачите. RM може да се приклучи на лажни сигнали наместо на силни индикатори за квалитет.

Хакирањето на награди води до бескорисни системи кои не успеваат да одговараат на човечките очекувања. Уште полошо, тоа може да резултира со однесување со вештачка интелигенција што е пристрасно, па дури и опасно ако се користи безгрижно.

Подемот на спојувањето на моделите

Зголемениот интерес за стратегии за спојување на модели како моделот Рататуј е поттикнат од сознанието дека поголемите модели, иако моќни, можат да бидат неефикасни и непрактични. За да се обучи модел со параметри од 1 трилион, потребни се огромни количини на податоци, пресметки, време и трошоци. Што е уште поважно, таквите модели имаат тенденција да се преоптоваруваат со дистрибуцијата на обуката, попречувајќи ја нивната способност да се генерализираат на различни сценарија од реалниот свет.

Спојувањето на модели обезбедува алтернативна рута за отклучување поголеми способности без неконтролирано зголемување. Со повторна употреба на повеќе специјализирани модели обучени за различни дистрибуции, задачи или цели, спојувањето на моделите има за цел да ја подобри разновидноста и робусноста надвор од дистрибуцијата. Премисата е дека различни модели доловуваат различни предвидливи обрасци кои можат да се надополнуваат еден со друг кога ќе се спојат.

Неодамнешните резултати го илустрираат ветувањето на овој концепт. Моделите добиени со спојување, и покрај тоа што имаат многу помалку параметри, можат да одговараат или дури и да ги надминат перформансите на гигантските модели како GPT-3. На пример, ансамблот на Model Ratatouille од само 7 контролни пунктови со средна големина постигнува врвна прецизност на високодимензионални сетови на податоци за текстуални содржини, надминувајќи го GPT-3.

Едноставноста на спојувањето по тежински просек е огромен бонус. Обуката за повеќе помошни модели бара дополнителни ресурси. Но, клучно, пресметувањето на времето за заклучување останува идентично на еден модел, бидејќи тежините се кондензирани во еден. Ова го прави методот лесно приспособлив, без загриженост за зголемената доцнење или трошоците за меморија.

Механизми зад спојувањето на моделите

Но, што точно ги овозможува овие придобивки од прецизноста од спојувањето на моделите? Неодамнешната анализа нуди неколку индиции:

  • Ублажување на меморирање: Секој модел гледа различни измешани серии од збирката на податоци за време на обуката. Просекот го намалува секое меморирање специфично за примерот, задржувајќи ги само генерализациите на ниво на податоци.
  • Намалување на варијансата: Моделите кои се обучени независно имаат неповрзани грешки. Со нивно комбинирање се намалува шумот во просек, со што се подобрува калибрацијата.
  • Регуларизација преку различност: Различните помошни задачи ги принудуваат моделите да се приклучат на повеќе генерализирани карактеристики корисни низ дистрибуциите.
  • Зголемување на робусноста: Неконзистентноста во предвидувањата сигнализира несигурност. Просекот ги ублажува поважните проценки, зголемувајќи ја веродостојноста.

Во суштина, спојувањето на моделите ги балансира слабостите на поединечните модели за да ги засили нивните колективни јаки страни. Споената претстава ги доловува заедничките основни причински структури, игнорирајќи ги случајните варијации.

Оваа концептуална основа го поврзува спојувањето на моделите со други популарни техники како ансамблирање и учење со повеќе задачи. Сите овие методи ја користат различноста низ моделите или задачите за да се добијат разновидни системи кои се свесни за несигурноста. Едноставноста и ефикасноста на просекот на тежината, сепак, му дава на моделот спојување уникатна предност за унапредување на распоредувањата во реалниот свет.

Модели за награда со просечна тежина

Процес на усогласување со WARM

Процес на усогласување со WARM

ТОПЛО иновативно користи модел на награда за прокси (RM), кој е тежински просек на повеќе поединечни RM, секој фино подесен од истиот претходно обучен LLM, но со различни хиперпараметри. Овој метод ја подобрува ефикасноста, доверливоста при поместувања на дистрибуцијата и робусноста наспроти неконзистентни преференции. Студијата, исто така, покажува дека користењето WARM како прокси RM, особено со зголемен број просечни RM-и, ги подобрува резултатите и го одложува почетокот на „хакирањето на награди“, феномен каде што наградите за контрола се влошуваат со текот на времето.

Еве преглед на високо ниво:

  1. Започнете со модел на основен јазик, претходно обучен на голем корпус. Иницијализирајте повеќе RM со додавање мали слоеви специфични за задачата на врвот.
  2. Добро подесете го секој RM одделно во базата на податоци за човечки преференци, користејќи различни хиперпараметри како стапката на учење за различноста.
  3. Просечете ги тежините на фино подесените RM за да добиете еден ТОПЛ ансамбл.

Клучниот увид е дека просечната тежина ги задржува само непроменливите информации што се дознаваат во сите различни RM. Ова ја намалува зависноста од лажни сигнали, зголемувајќи ја робусноста. Ансамблот исто така има корист од намалувањето на варијансата, подобрувајќи ја доверливоста и покрај промените во дистрибуцијата.

Како што беше дискутирано претходно, различноста помеѓу независно обучените модели е од клучно значење за отклучување на целосниот потенцијал на спојувањето на моделите. Но, кои се некои конкретни техники за промовирање на продуктивна различност?

Документот WARM истражува неколку паметни идеи кои би можеле да се генерализираат пошироко:

Нарачување мешани

Тривијален, но влијателен пристап е мешање на редоследот по кој точките на податоци се гледаат од секој модел за време на обуката. Дури и овој едноставен чекор ги декорелира тежините, намалувајќи го вишокот на меморирање на обрасците.

Варијации на хиперпараметри

Дотерувањето на хиперпараметрите како стапката на учење и веројатноста за осипување за секое пуштање воведува корисна разновидност. Моделите се спојуваат поинаку, зафаќајќи различни својства на сетот на податоци.

Просек на контролен пункт – Баклава

Методот Баклава иницијализира модели за спојување од различни снимки долж истата траекторија за предобука. Ова ги релаксира ограничувањата во споредба со моделските супи кои наложуваат заедничка почетна точка. Во однос на моделот рататуј, Баклава избегнува дополнителни задачи. Генерално, постигнува ефективна рамнотежа точност-различност.

фино подесување на повеќе модели на награди

Процесот започнува со претходно обучен модел на голем јазик (LLM) 𝜃_𝑝𝑡. Од овој модел, различни контролни точки {𝜃_𝑠 𝑓 𝑡_𝑖} се изведени за време на извршувањето на надгледувано фино подесување (SFT), секоја собрана на различни чекори за обука на SFT. Овие контролни точки потоа се користат како иницијализација за фино подесување на повеќе модели на награди (RMs) {𝜙𝑖} на базата на податоци за преференци. Ова дотерување има за цел да ги прилагоди моделите за подобро усогласување со човечките преференци. По дотерувањето, овие RM се комбинираат преку процес на просекување на тежината, што резултира со конечниот модел, 𝜙_WARM.

Анализата потврдува дека додавањето постари контролни пунктови со поместување на просекот им штети на индивидуалните перформанси, загрозувајќи ги заслугите на различноста. Просекот на само конечните претстави од секое трчање има подобри резултати. Општо земено, балансирањето на целите на различноста со одржувањето на точноста останува отворен предизвик за истражување.

Генерално, спојувањето на моделите добро се усогласува со општиот етос на теренот за ефективно да се рециклираат постоечките ресурси за зголемена доверливост, ефикасност и разновидност. Едноставноста на просечната тежина ја зацврстува нејзината позиција како водечки кандидат за составување робусни модели од лесно достапни градежни блокови.

За разлика од традиционалните методи на асемблирање со просечни предвидувања, WARM ги одржува пресметковните трошоци минимални со одржување само еден сет на тежини. Експериментите на задачите за сумирање на текст ја покажуваат ефикасноста на WARM:

  • За најдоброто земање примероци, WARM постигнува 92.5% стапка на победа во однос на случаен избор според етикетите за човечко претпочитање.
  • Во RLHF, ТОПЛА полиса достигнува стапка на добивка од 79.4% во однос на полиса обучена со еден RM по ист број чекори.
  • WARM продолжува да функционира добро дури и кога четвртина од човечките етикети се оштетени.

Овие резултати го илустрираат потенцијалот на WARM како практична техника за развој на асистенти со вештачка интелигенција во реалниот свет кои ќе се однесуваат сигурно. Со отстранување на недоследностите во човечките повратни информации, WARM политиките можат да останат цврсто усогласени со човечките вредности дури и кога продолжуваат да учат од новите искуства.

Поголема слика

WARM се наоѓа на пресекот на два клучни тренда во истражувањето за усогласување со вештачка интелигенција. Прво е проучувањето на генерализацијата надвор од дистрибуција (ООД), која има за цел да ги подобри перформансите на моделот на нови податоци што се разликуваат од дистрибуцијата на обуката. Второ е истражување на алгоритамската робусност, фокусирајќи се на доверливоста и покрај малите влезни пертурбации или бучава.

Со цртање врски помеѓу овие полиња околу поимот на научени непроменливости, WARM нè придвижува кон поригорозно втемелени техники за усогласување на вредностите. Увидите од WARM би можеле да се генерализираат дури и надвор од RLHF, обезбедувајќи лекции за пошироки системи за машинско учење кои имаат интеракција со отворениот свет.

Се разбира, моделирањето на награди е само едно парче од сложувалката за усогласување. Сè уште ни треба напредок во однос на другите предизвици, како што се спецификација на награди, скалабилен надзор и безбедно истражување. Во комбинација со комплементарни техники, WARM може да го забрза развојот на вештачката интелигенција која одржливо го промовира човечкиот просперитет. Со заедничко разјаснување на принципите кои се во основата на робусното усогласување, истражувачите ја трасираат патеката до корисна, етичка вештачка интелигенција.

Изминатите пет години ги поминав потопувајќи се во фасцинантниот свет на машинското учење и длабокото учење. Мојата страст и експертиза ме наведоа да придонесам за над 50 различни проекти за софтверско инженерство, со посебен фокус на AI/ML. Мојата постојана љубопитност, исто така, ме привлече кон Обработка на природни јазици, поле кое јас сум желен да го истражам понатаму.