stub Dè a th’ ann an Ionnsachadh Neartachadh bho Fios air ais Daonna (RLHF) - Unite.AI
Ceangal leinn
Clas Maighstir AI:

AI 101

Dè a th’ ann an Ionnsachadh Neartachadh bho Fios air ais Daonna (RLHF)

Published

 on

Ann an saoghal inntleachd fuadain (AI) a tha a’ sìor atharrachadh, tha Ionnsachadh Neartachadh bho Fios air ais Daonna (RLHF) na dhòigh ùr-nodha a chaidh a chleachdadh gus modalan cànain adhartach leithid ChatGPT agus GPT-4 a leasachadh. Anns a’ phost bhlog seo, bidh sinn a’ dàibheadh ​​a-steach do iom-fhillteachd RLHF, a’ sgrùdadh a thagraidhean, agus a’ tuigsinn a phàirt ann a bhith a’ cumadh nan siostaman AI a bheir cumhachd do na h-innealan leis a bheil sinn ag eadar-obrachadh gach latha.

Tha Ionnsachadh Neartachaidh bho Fios air ais Daonna (RLHF) na dhòigh adhartach airson siostaman AI a thrèanadh a tha a’ cothlamadh ionnsachadh neartachaidh le fios air ais bho dhaoine. Tha e na dhòigh air pròiseas ionnsachaidh nas làidire a chruthachadh le bhith a’ toirt a-steach gliocas agus eòlas luchd-trèanaidh daonna anns a’ phròiseas trèanaidh modail. Tha an dòigh-obrach a’ toirt a-steach a bhith a’ cleachdadh fios air ais bho dhaoine gus comharra duais a chruthachadh, a thèid a chleachdadh an uairsin gus giùlan a’ mhodail a leasachadh tro ionnsachadh ath-neartachaidh.

Tha ionnsachadh neartachaidh, gu sìmplidh, na phròiseas far am bi àidseant AI ag ionnsachadh co-dhùnaidhean a dhèanamh le bhith ag eadar-obrachadh le àrainneachd agus a’ faighinn fios air ais ann an cruth dhuaisean no peanasan. Is e amas an neach-ionaid an duais tionalach a mheudachadh thar ùine. Bidh RLHF a’ neartachadh a’ phròiseis seo le bhith a’ cur an àite, no a’ cur ris, na gnìomhan duais ro-mhìnichte le fios air ais bho dhaoine, agus mar sin a’ leigeil leis a’ mhodail roghainnean agus tuigse iom-fhillte daonna a ghlacadh nas fheàrr.

Mar a tha RLHF ag obair

Faodar pròiseas RLHF a bhriseadh sìos ann an grunn cheumannan:

  1. Trèanadh modail tùsail: Aig an toiseach, tha am modal AI air a thrèanadh le bhith a’ cleachdadh ionnsachadh fo stiùir, far am bi luchd-trèanaidh daonna a’ toirt seachad eisimpleirean le bileagan de ghiùlan ceart. Bidh am modail ag ionnsachadh ro-innse a dhèanamh air a’ ghnìomh no an toradh ceart stèidhichte air na chaidh a thoirt a-steach.
  2. Cruinneachadh de bheachdan daonna: Às deidh a 'chiad mhodail a bhith air a thrèanadh, tha luchd-trèanaidh daonna an sàs ann a bhith a' toirt seachad fios air ais mu choileanadh a 'mhodail. Bidh iad a’ rangachadh diofar thoraidhean no ghnìomhan air an gineadh le modail a rèir an càileachd no an ceartachd. Tha am fios air ais seo air a chleachdadh gus comharra duais a chruthachadh airson ionnsachadh ath-neartachaidh.
  3. Ionnsachadh ath-neartachaidh: Tha am modail an uairsin air a ghleusadh le bhith a’ cleachdadh Proximal Policy Optimization (PPO) no algoirmean coltach ris a tha a’ toirt a-steach na comharran duais a ghineadh le daoine. Tha am modail a’ leantainn air adhart a’ leasachadh a choileanadh le bhith ag ionnsachadh bhon fhios air ais a thug luchd-trèanaidh daonna seachad.
  4. Pròiseas ath-aithriseach: Tha am pròiseas airson a bhith a’ cruinneachadh fios air ais bho dhaoine agus ag ùrachadh a’ mhodail tro ionnsachadh ath-neartachaidh air ath-aithris gu ath-aithriseach, a’ leantainn gu leasachadh leantainneach ann an coileanadh a’ mhodail.

RLHF ann an ChatGPT agus GPT-4

Tha ChatGPT agus GPT-4 nam modalan cànain ùr-nodha air an leasachadh le OpenAI a chaidh an trèanadh le bhith a’ cleachdadh RLHF. Tha pàirt deatamach air a bhith aig an dòigh seo ann a bhith ag àrdachadh coileanadh nam modalan sin agus gan dèanamh nas comasaiche air freagairtean coltach ri daoine a ghineadh.

A thaobh ChatGPT, tha a’ chiad mhodail air a thrèanadh a’ cleachdadh gleusadh fo stiùir. Bidh luchd-trèanaidh AI daonna a’ dol an sàs ann an còmhraidhean, a’ cluich gach cuid an neach-cleachdaidh agus an neach-cuideachaidh AI, gus stòr-dàta a ghineadh a tha a’ riochdachadh diofar shuidheachaidhean còmhraidh. Bidh am modail an uairsin ag ionnsachadh bhon stòr-dàta seo le bhith a’ ro-innse an ath fhreagairt iomchaidh sa chòmhradh.

An uairsin, tòisichidh am pròiseas airson fios air ais bho dhaoine a chruinneachadh. Bidh luchd-trèanaidh AI a’ rangachadh grunn fhreagairtean air an cruthachadh le modail stèidhichte air am buntainneachd, cunbhalachd agus càileachd. Tha am fios air ais seo air a thionndadh gu bhith na chomharradh duais, agus tha am modail air a ghleusadh le bhith a’ cleachdadh algoirmean ionnsachaidh neartachaidh.

Tha GPT-4, dreach adhartach den GPT-3 a bh’ ann roimhe, a’ leantainn pròiseas coltach ris. Tha a’ chiad mhodail air a thrèanadh le bhith a’ cleachdadh stòr-dàta mòr anns a bheil teacsa bho dhiofar thùsan. Tha fios air ais daonna an uairsin air a thoirt a-steach aig ìre an ionnsachaidh neartachaidh, a’ cuideachadh leis a’ mhodail a bhith a’ glacadh nuances seòlta agus roghainnean nach eil furasta an còdachadh ann an gnìomhan duais ro-mhìnichte.

Buannachdan RLHF ann an AI Systems

Tha grunn bhuannachdan aig RLHF ann an leasachadh siostaman AI leithid ChatGPT agus GPT-4:

  • Coileanadh nas fheàrr: Le bhith a’ toirt a-steach fios air ais bho dhaoine a-steach don phròiseas ionnsachaidh, bidh RLHF a’ cuideachadh siostaman AI gus roghainnean daonna iom-fhillte a thuigsinn nas fheàrr agus gus freagairtean nas cinntiche, nas ciallaiche agus nas freagarraiche a thoirt gu buil.
  • Freagarrachd: Tha RLHF a’ toirt comas do mhodalan AI atharrachadh gu diofar ghnìomhan agus shuidheachaidhean le bhith ag ionnsachadh bho eòlasan agus eòlas eadar-mheasgte luchd-trèanaidh daonna. Tha an sùbailteachd seo a’ leigeil leis na modailean coileanadh gu math ann an diofar thagraidhean, bho AI còmhraidh gu gineadh susbaint agus nas fhaide air falbh.
  • Meudan nas lugha: Bidh am pròiseas ath-aithriseach de bhith a’ cruinneachadh fios air ais agus a’ leasachadh a’ mhodail a’ cuideachadh le bhith a’ dèiligeadh ri agus a’ lughdachadh claonaidhean a tha an làthair anns an dàta trèanaidh tùsail. Mar a bhios luchd-trèanaidh daonna a’ measadh agus a’ rangachadh nan toraidhean a tha air an cruthachadh le modail, is urrainn dhaibh giùlan neo-mhiannach a chomharrachadh agus dèiligeadh riutha, a’ dèanamh cinnteach gu bheil an siostam AI nas co-thaobhadh ri luachan daonna.
  • Leasachadh leantainneach: Tha pròiseas RLHF a’ ceadachadh leasachadh leantainneach ann an coileanadh modail. Mar a bhios luchd-trèanaidh daonna a’ toirt seachad barrachd fios air ais agus am modail a’ dol tro ionnsachadh ath-neartachaidh, bidh e a’ sìor fhàs comasach air toraidhean àrd-inbhe a ghineadh.
  • Sàbhailteachd nas fheàrr: Bidh RLHF a’ cur ri leasachadh siostaman AI nas sàbhailte le bhith a’ leigeil le luchd-trèanaidh daonna am modail a stiùireadh air falbh bho bhith a’ gineadh susbaint cronail no gun iarraidh. Bidh an lùb fios-air-ais seo a’ cuideachadh gus dèanamh cinnteach gu bheil siostaman AI nas earbsaiche agus nas earbsaiche nan eadar-obrachadh le luchd-cleachdaidh.

Dùbhlain agus Seallaidhean san àm ri teachd

Ged a tha RLHF air a bhith èifeachdach ann a bhith a’ leasachadh shiostaman AI leithid ChatGPT agus GPT-4, tha dùbhlain ann fhathast ri faighinn seachad air agus raointean airson rannsachadh san àm ri teachd:

  • Comas do-dhèanta: Leis gu bheil am pròiseas an urra ri fios air ais bho dhaoine, faodaidh sgèileadh gus modalan nas motha agus nas iom-fhillte a thrèanadh a bhith dian air goireasan agus ùine. Dh’ fhaodadh leasachadh dhòighean gus am pròiseas fios-air-ais fèin-ghluasadach no leth-fèin-ghluasadach cuideachadh le bhith a’ dèiligeadh ris a’ chùis seo.
  • Neo-chinnteachd agus cuspair: Faodaidh fios air ais bho dhaoine a bhith cuspaireil agus faodaidh e atharrachadh eadar luchd-trèanaidh. Faodaidh seo leantainn gu neo-chunbhalachd anns na comharran duais agus a dh’ fhaodadh buaidh a thoirt air coileanadh modail. Is dòcha gun cuidich leasachadh stiùireadh nas soilleire agus dòighean togail co-aontachd airson luchd-trèanaidh daonna gus an duilgheadas seo a lughdachadh.
  • Co-thaobhadh luach fad-ùine: Tha e na dhùbhlan a bhith a’ dèanamh cinnteach gu bheil siostaman AI fhathast a rèir luachan daonna san fhad-ùine. Bidh rannsachadh leantainneach ann an raointean leithid modaladh dhuaisean agus sàbhailteachd AI deatamach ann a bhith a’ cumail suas co-thaobhadh luach mar a bhios siostaman AI a’ tighinn air adhart.

Tha RLHF na dhòigh cruth-atharrachail ann an trèanadh AI a tha air a bhith air leth cudromach ann a bhith a’ leasachadh mhodalan cànain adhartach leithid ChatGPT agus GPT-4. Le bhith a’ cothlamadh ionnsachadh neartachaidh le fios air ais bho dhaoine, tha RLHF a’ toirt comas do shiostaman AI tuigse nas fheàrr fhaighinn air agus atharrachadh gu roghainnean iom-fhillte daonna, a’ leantainn gu coileanadh agus sàbhailteachd nas fheàrr. Mar a bhios raon AI a’ leantainn air adhart, tha e deatamach gun tèid tuilleadh rannsachaidh is leasachadh a dhèanamh air dòighean-obrach leithid RLHF gus dèanamh cinnteach gun tèid siostaman AI a chruthachadh a tha chan ann a-mhàin cumhachdach ach cuideachd a rèir luachan is dùilean daonna.

Tha Alex McFarland na neach-naidheachd agus sgrìobhadair AI a’ sgrùdadh nan leasachaidhean as ùire ann an inntleachd fuadain. Tha e air co-obrachadh le grunn chompanaidhean tòiseachaidh is foillseachaidhean AI air feadh an t-saoghail.