AI 101 г

Какво е подсилване, учене от човешка обратна връзка (RLHF)

Публикуван

Преди 1 година

Март 29, 2023

В непрекъснато развиващия се свят на изкуствения интелект (AI), Reinforcement Learning From Human Feedback (RLHF) е новаторска техника, която е използвана за разработване на усъвършенствани езикови модели като ChatGPT и GPT-4. В тази публикация в блога ще се потопим в тънкостите на RLHF, ще проучим неговите приложения и ще разберем ролята му при оформянето на AI системите, които захранват инструментите, с които взаимодействаме ежедневно.

Подсилващо обучение от човешка обратна връзка (RLHF) е усъвършенстван подход за обучение на AI системи, който съчетава подсилващо обучение с човешка обратна връзка. Това е начин да се създаде по-стабилен процес на обучение чрез включване на мъдростта и опита на човешките обучители в моделния процес на обучение. Техниката включва използване на човешка обратна връзка за създаване на сигнал за награда, който след това се използва за подобряване на поведението на модела чрез обучение с подсилване.

Обучението с подсилване, с прости думи, е процес, при който AI агент се научава да взема решения чрез взаимодействие с околната среда и получаване на обратна връзка под формата на награди или наказания. Целта на агента е да увеличи максимално кумулативната награда във времето. RLHF подобрява този процес, като замества или допълва предварително дефинираните функции за възнаграждение с обратна връзка, генерирана от човека, като по този начин позволява на модела да улавя по-добре сложни човешки предпочитания и разбирания.

Как работи RLHF

Процесът на RLHF може да бъде разделен на няколко стъпки:

Първоначално обучение на модел: В началото моделът на ИИ се обучава с помощта на контролирано обучение, където обучаващите хора предоставят етикетирани примери за правилно поведение. Моделът се научава да предвижда правилното действие или изход въз основа на дадените входове.
Събиране на обратна връзка от хора: След като първоначалният модел е обучен, обучителите на хора участват в предоставянето на обратна връзка за представянето на модела. Те класират различни генерирани от модел изходи или действия въз основа на тяхното качество или коректност. Тази обратна връзка се използва за създаване на сигнал за награда за обучение с подсилване.
Укрепващо обучение: След това моделът се настройва фино с помощта на оптимизация на проксималната политика (PPO) или подобни алгоритми, които включват генерираните от човека сигнали за възнаграждение. Моделът продължава да подобрява своята производителност, като се учи от обратната връзка, предоставена от човешките обучители.
Итеративен процес: Процесът на събиране на човешка обратна връзка и усъвършенстване на модела чрез обучение с подсилване се повтаря итеративно, което води до непрекъснато подобряване на производителността на модела.

RLHF в ChatGPT и GPT-4

ChatGPT и GPT-4 са най-съвременни езикови модели, разработени от OpenAI, които са обучени с помощта на RLHF. Тази техника е изиграла решаваща роля за подобряване на ефективността на тези модели и за правенето им по-способни да генерират човешки реакции.

В случая на ChatGPT, първоначалният модел се обучава с помощта на контролирана фина настройка. Човешки AI обучители участват в разговори, като играят ролята както на потребител, така и на AI помощник, за да генерират набор от данни, който представлява различни сценарии на разговор. След това моделът се учи от този набор от данни, като предвижда следващия подходящ отговор в разговора.

След това започва процесът на събиране на човешка обратна връзка. Обучителите на AI класират множество генерирани от модели отговори въз основа на тяхната уместност, съгласуваност и качество. Тази обратна връзка се преобразува в сигнал за награда и моделът се настройва фино с помощта на алгоритми за обучение на подсилване.

GPT-4, усъвършенствана версия на своя предшественик GPT-3, следва подобен процес. Първоначалният модел се обучава с помощта на огромен набор от данни, съдържащ текст от различни източници. След това човешката обратна връзка се включва по време на фазата на обучение за подсилване, като помага на модела да улови фините нюанси и предпочитания, които не са лесно кодирани в предварително дефинирани функции за възнаграждение.

Предимства на RLHF в AI системи

RLHF предлага няколко предимства при разработването на AI системи като ChatGPT и GPT-4:

Подобрена производителност: Чрез включването на човешка обратна връзка в процеса на обучение, RLHF помага на AI системите да разберат по-добре сложните човешки предпочитания и да произвеждат по-точни, съгласувани и контекстуално подходящи отговори.
Адаптивност: RLHF позволява на AI моделите да се адаптират към различни задачи и сценарии, като се учат от разнообразния опит и опит на обучаващите хора. Тази гъвкавост позволява на моделите да се представят добре в различни приложения, от разговорен AI до генериране на съдържание и други.
Намалени отклонения: Итеративният процес на събиране на обратна връзка и усъвършенстване на модела помага за справяне и смекчаване на отклоненията, присъстващи в данните за първоначалното обучение. Тъй като обучителите на хора оценяват и класират генерираните от модела резултати, те могат да идентифицират и адресират нежелано поведение, като гарантират, че AI системата е в по-голямо съответствие с човешките ценности.
Непрекъснато усъвършенстване: Процесът RLHF позволява непрекъснато подобряване на производителността на модела. Тъй като обучаващите хора предоставят повече обратна връзка и моделът се подлага на обучение за укрепване, той става все по-умел в генерирането на висококачествени резултати.
Повишена безопасност: RLHF допринася за разработването на по-безопасни AI системи, като позволява на обучаващите хора да насочват модела далеч от генериране на вредно или нежелано съдържание. Тази верига за обратна връзка помага да се гарантира, че AI системите са по-надеждни и надеждни при взаимодействието си с потребителите.

Предизвикателства и бъдещи перспективи

Въпреки че RLHF се оказа ефективен при подобряването на AI системи като ChatGPT и GPT-4, все още има предизвикателства за преодоляване и области за бъдещи изследвания:

скалируемост: Тъй като процесът разчита на човешка обратна връзка, мащабирането му за обучение на по-големи и по-сложни модели може да изисква много ресурси и време. Разработването на методи за автоматизиране или полуавтоматизиране на процеса на обратна връзка може да помогне за справяне с този проблем.
Неяснота и субективизъм: Човешката обратна връзка може да бъде субективна и може да варира между обучителите. Това може да доведе до несъответствия в сигналите за възнаграждение и потенциално да повлияе на ефективността на модела. Разработването на по-ясни насоки и механизми за изграждане на консенсус за обучаващите хора може да помогне за облекчаване на този проблем.
Дългосрочно изравняване на стойността: Гарантирането, че AI системите остават в съответствие с човешките ценности в дългосрочен план, е предизвикателство, което трябва да бъде разгледано. Непрекъснатите изследвания в области като моделиране на възнагражденията и безопасността на AI ще бъдат от решаващо значение за поддържане на съответствието на стойността, докато системите за AI се развиват.

RLHF е преобразуващ подход в обучението с изкуствен интелект, който е основен в разработването на усъвършенствани езикови модели като ChatGPT и GPT-4. Чрез комбиниране на обучение за подсилване с човешка обратна връзка, RLHF позволява на AI системите да разбират по-добре и да се адаптират към сложните човешки предпочитания, което води до подобрена производителност и безопасност. Тъй като областта на AI продължава да напредва, от решаващо значение е да се инвестира в по-нататъшни изследвания и развитие на техники като RLHF, за да се гарантира създаването на AI системи, които са не само мощни, но и съобразени с човешките ценности и очаквания.

Свързани теми:укрепване

Следва

Дифузионни модели в AI – всичко, което трябва да знаете

Не пропускайте

Какво е инженеринг на влиянието и как се свързва с ИИ на емоциите?

Алекс Макфарланд

Алекс Макфарланд е AI журналист и писател, изследващ най-новите разработки в областта на изкуствения интелект. Той е сътрудничил с множество стартиращи фирми и публикации в областта на изкуствения интелект по целия свят.

Обединете.AI

Какво е подсилване, учене от човешка обратна връзка (RLHF)

AI 101 г

Какво е подсилване, учене от човешка обратна връзка (RLHF)

Съдържание

Как работи RLHF

RLHF в ChatGPT и GPT-4

Предимства на RLHF в AI системи

Предизвикателства и бъдещи перспективи

Обединете.AI

Какво е подсилване, учене от човешка обратна връзка (RLHF)

Съдържание

Как работи RLHF

RLHF в ChatGPT и GPT-4

Предимства на RLHF в AI системи

Предизвикателства и бъдещи перспективи

Може да ви хареса