AI 101

Dè a th’ ann an Ionnsachadh Neartachadh bho Fios air ais Daonna (RLHF)

Published

1 bliadhna air ais

Am Màrt 29, 2023

Ann an saoghal inntleachd fuadain (AI) a tha a’ sìor atharrachadh, tha Ionnsachadh Neartachadh bho Fios air ais Daonna (RLHF) na dhòigh ùr-nodha a chaidh a chleachdadh gus modalan cànain adhartach leithid ChatGPT agus GPT-4 a leasachadh. Anns a’ phost bhlog seo, bidh sinn a’ dàibheadh a-steach do iom-fhillteachd RLHF, a’ sgrùdadh a thagraidhean, agus a’ tuigsinn a phàirt ann a bhith a’ cumadh nan siostaman AI a bheir cumhachd do na h-innealan leis a bheil sinn ag eadar-obrachadh gach latha.

Tha Ionnsachadh Neartachaidh bho Fios air ais Daonna (RLHF) na dhòigh adhartach airson siostaman AI a thrèanadh a tha a’ cothlamadh ionnsachadh neartachaidh le fios air ais bho dhaoine. Tha e na dhòigh air pròiseas ionnsachaidh nas làidire a chruthachadh le bhith a’ toirt a-steach gliocas agus eòlas luchd-trèanaidh daonna anns a’ phròiseas trèanaidh modail. Tha an dòigh-obrach a’ toirt a-steach a bhith a’ cleachdadh fios air ais bho dhaoine gus comharra duais a chruthachadh, a thèid a chleachdadh an uairsin gus giùlan a’ mhodail a leasachadh tro ionnsachadh ath-neartachaidh.

Tha ionnsachadh neartachaidh, gu sìmplidh, na phròiseas far am bi àidseant AI ag ionnsachadh co-dhùnaidhean a dhèanamh le bhith ag eadar-obrachadh le àrainneachd agus a’ faighinn fios air ais ann an cruth dhuaisean no peanasan. Is e amas an neach-ionaid an duais tionalach a mheudachadh thar ùine. Bidh RLHF a’ neartachadh a’ phròiseis seo le bhith a’ cur an àite, no a’ cur ris, na gnìomhan duais ro-mhìnichte le fios air ais bho dhaoine, agus mar sin a’ leigeil leis a’ mhodail roghainnean agus tuigse iom-fhillte daonna a ghlacadh nas fheàrr.

Mar a tha RLHF ag obair

Faodar pròiseas RLHF a bhriseadh sìos ann an grunn cheumannan:

Trèanadh modail tùsail: Aig an toiseach, tha am modal AI air a thrèanadh le bhith a’ cleachdadh ionnsachadh fo stiùir, far am bi luchd-trèanaidh daonna a’ toirt seachad eisimpleirean le bileagan de ghiùlan ceart. Bidh am modail ag ionnsachadh ro-innse a dhèanamh air a’ ghnìomh no an toradh ceart stèidhichte air na chaidh a thoirt a-steach.
Cruinneachadh de bheachdan daonna: Às deidh a 'chiad mhodail a bhith air a thrèanadh, tha luchd-trèanaidh daonna an sàs ann a bhith a' toirt seachad fios air ais mu choileanadh a 'mhodail. Bidh iad a’ rangachadh diofar thoraidhean no ghnìomhan air an gineadh le modail a rèir an càileachd no an ceartachd. Tha am fios air ais seo air a chleachdadh gus comharra duais a chruthachadh airson ionnsachadh ath-neartachaidh.
Ionnsachadh ath-neartachaidh: Tha am modail an uairsin air a ghleusadh le bhith a’ cleachdadh Proximal Policy Optimization (PPO) no algoirmean coltach ris a tha a’ toirt a-steach na comharran duais a ghineadh le daoine. Tha am modail a’ leantainn air adhart a’ leasachadh a choileanadh le bhith ag ionnsachadh bhon fhios air ais a thug luchd-trèanaidh daonna seachad.
Pròiseas ath-aithriseach: Tha am pròiseas airson a bhith a’ cruinneachadh fios air ais bho dhaoine agus ag ùrachadh a’ mhodail tro ionnsachadh ath-neartachaidh air ath-aithris gu ath-aithriseach, a’ leantainn gu leasachadh leantainneach ann an coileanadh a’ mhodail.

RLHF ann an ChatGPT agus GPT-4

Tha ChatGPT agus GPT-4 nam modalan cànain ùr-nodha air an leasachadh le OpenAI a chaidh an trèanadh le bhith a’ cleachdadh RLHF. Tha pàirt deatamach air a bhith aig an dòigh seo ann a bhith ag àrdachadh coileanadh nam modalan sin agus gan dèanamh nas comasaiche air freagairtean coltach ri daoine a ghineadh.

A thaobh ChatGPT, tha a’ chiad mhodail air a thrèanadh a’ cleachdadh gleusadh fo stiùir. Bidh luchd-trèanaidh AI daonna a’ dol an sàs ann an còmhraidhean, a’ cluich gach cuid an neach-cleachdaidh agus an neach-cuideachaidh AI, gus stòr-dàta a ghineadh a tha a’ riochdachadh diofar shuidheachaidhean còmhraidh. Bidh am modail an uairsin ag ionnsachadh bhon stòr-dàta seo le bhith a’ ro-innse an ath fhreagairt iomchaidh sa chòmhradh.

An uairsin, tòisichidh am pròiseas airson fios air ais bho dhaoine a chruinneachadh. Bidh luchd-trèanaidh AI a’ rangachadh grunn fhreagairtean air an cruthachadh le modail stèidhichte air am buntainneachd, cunbhalachd agus càileachd. Tha am fios air ais seo air a thionndadh gu bhith na chomharradh duais, agus tha am modail air a ghleusadh le bhith a’ cleachdadh algoirmean ionnsachaidh neartachaidh.

Tha GPT-4, dreach adhartach den GPT-3 a bh’ ann roimhe, a’ leantainn pròiseas coltach ris. Tha a’ chiad mhodail air a thrèanadh le bhith a’ cleachdadh stòr-dàta mòr anns a bheil teacsa bho dhiofar thùsan. Tha fios air ais daonna an uairsin air a thoirt a-steach aig ìre an ionnsachaidh neartachaidh, a’ cuideachadh leis a’ mhodail a bhith a’ glacadh nuances seòlta agus roghainnean nach eil furasta an còdachadh ann an gnìomhan duais ro-mhìnichte.

Buannachdan RLHF ann an AI Systems

Tha grunn bhuannachdan aig RLHF ann an leasachadh siostaman AI leithid ChatGPT agus GPT-4:

Coileanadh nas fheàrr: Le bhith a’ toirt a-steach fios air ais bho dhaoine a-steach don phròiseas ionnsachaidh, bidh RLHF a’ cuideachadh siostaman AI gus roghainnean daonna iom-fhillte a thuigsinn nas fheàrr agus gus freagairtean nas cinntiche, nas ciallaiche agus nas freagarraiche a thoirt gu buil.
Freagarrachd: Tha RLHF a’ toirt comas do mhodalan AI atharrachadh gu diofar ghnìomhan agus shuidheachaidhean le bhith ag ionnsachadh bho eòlasan agus eòlas eadar-mheasgte luchd-trèanaidh daonna. Tha an sùbailteachd seo a’ leigeil leis na modailean coileanadh gu math ann an diofar thagraidhean, bho AI còmhraidh gu gineadh susbaint agus nas fhaide air falbh.
Meudan nas lugha: Bidh am pròiseas ath-aithriseach de bhith a’ cruinneachadh fios air ais agus a’ leasachadh a’ mhodail a’ cuideachadh le bhith a’ dèiligeadh ri agus a’ lughdachadh claonaidhean a tha an làthair anns an dàta trèanaidh tùsail. Mar a bhios luchd-trèanaidh daonna a’ measadh agus a’ rangachadh nan toraidhean a tha air an cruthachadh le modail, is urrainn dhaibh giùlan neo-mhiannach a chomharrachadh agus dèiligeadh riutha, a’ dèanamh cinnteach gu bheil an siostam AI nas co-thaobhadh ri luachan daonna.
Leasachadh leantainneach: Tha pròiseas RLHF a’ ceadachadh leasachadh leantainneach ann an coileanadh modail. Mar a bhios luchd-trèanaidh daonna a’ toirt seachad barrachd fios air ais agus am modail a’ dol tro ionnsachadh ath-neartachaidh, bidh e a’ sìor fhàs comasach air toraidhean àrd-inbhe a ghineadh.
Sàbhailteachd nas fheàrr: Bidh RLHF a’ cur ri leasachadh siostaman AI nas sàbhailte le bhith a’ leigeil le luchd-trèanaidh daonna am modail a stiùireadh air falbh bho bhith a’ gineadh susbaint cronail no gun iarraidh. Bidh an lùb fios-air-ais seo a’ cuideachadh gus dèanamh cinnteach gu bheil siostaman AI nas earbsaiche agus nas earbsaiche nan eadar-obrachadh le luchd-cleachdaidh.

Dùbhlain agus Seallaidhean san àm ri teachd

Ged a tha RLHF air a bhith èifeachdach ann a bhith a’ leasachadh shiostaman AI leithid ChatGPT agus GPT-4, tha dùbhlain ann fhathast ri faighinn seachad air agus raointean airson rannsachadh san àm ri teachd:

Comas do-dhèanta: Leis gu bheil am pròiseas an urra ri fios air ais bho dhaoine, faodaidh sgèileadh gus modalan nas motha agus nas iom-fhillte a thrèanadh a bhith dian air goireasan agus ùine. Dh’ fhaodadh leasachadh dhòighean gus am pròiseas fios-air-ais fèin-ghluasadach no leth-fèin-ghluasadach cuideachadh le bhith a’ dèiligeadh ris a’ chùis seo.
Neo-chinnteachd agus cuspair: Faodaidh fios air ais bho dhaoine a bhith cuspaireil agus faodaidh e atharrachadh eadar luchd-trèanaidh. Faodaidh seo leantainn gu neo-chunbhalachd anns na comharran duais agus a dh’ fhaodadh buaidh a thoirt air coileanadh modail. Is dòcha gun cuidich leasachadh stiùireadh nas soilleire agus dòighean togail co-aontachd airson luchd-trèanaidh daonna gus an duilgheadas seo a lughdachadh.
Co-thaobhadh luach fad-ùine: Tha e na dhùbhlan a bhith a’ dèanamh cinnteach gu bheil siostaman AI fhathast a rèir luachan daonna san fhad-ùine. Bidh rannsachadh leantainneach ann an raointean leithid modaladh dhuaisean agus sàbhailteachd AI deatamach ann a bhith a’ cumail suas co-thaobhadh luach mar a bhios siostaman AI a’ tighinn air adhart.

Tha RLHF na dhòigh cruth-atharrachail ann an trèanadh AI a tha air a bhith air leth cudromach ann a bhith a’ leasachadh mhodalan cànain adhartach leithid ChatGPT agus GPT-4. Le bhith a’ cothlamadh ionnsachadh neartachaidh le fios air ais bho dhaoine, tha RLHF a’ toirt comas do shiostaman AI tuigse nas fheàrr fhaighinn air agus atharrachadh gu roghainnean iom-fhillte daonna, a’ leantainn gu coileanadh agus sàbhailteachd nas fheàrr. Mar a bhios raon AI a’ leantainn air adhart, tha e deatamach gun tèid tuilleadh rannsachaidh is leasachadh a dhèanamh air dòighean-obrach leithid RLHF gus dèanamh cinnteach gun tèid siostaman AI a chruthachadh a tha chan ann a-mhàin cumhachdach ach cuideachd a rèir luachan is dùilean daonna.

Cuspairean co-cheangailte:ionnsachadh daingneachaidh

Sgaoileadh

Modalan sgaoilidh ann an AI - a h-uile dad a dh ’fheumas tu a bhith eòlach

Na bi a 'Bh-Uas

Dè a th’ ann an innleadaireachd buaidh & mar a tha e co-cheangailte ri Emotion AI?

Ailig MacPhàrlain

Tha Alex McFarland na neach-naidheachd agus sgrìobhadair AI a’ sgrùdadh nan leasachaidhean as ùire ann an inntleachd fuadain. Tha e air co-obrachadh le grunn chompanaidhean tòiseachaidh is foillseachaidhean AI air feadh an t-saoghail.

Aonaich.AI

Dè a th’ ann an Ionnsachadh Neartachadh bho Fios air ais Daonna (RLHF)

AI 101

Dè a th’ ann an Ionnsachadh Neartachadh bho Fios air ais Daonna (RLHF)

Clàr-innse

Mar a tha RLHF ag obair

RLHF ann an ChatGPT agus GPT-4

Buannachdan RLHF ann an AI Systems

Dùbhlain agus Seallaidhean san àm ri teachd

Aonaich.AI

Dè a th’ ann an Ionnsachadh Neartachadh bho Fios air ais Daonna (RLHF)

Clàr-innse

Mar a tha RLHF ag obair

RLHF ann an ChatGPT agus GPT-4

Buannachdan RLHF ann an AI Systems

Dùbhlain agus Seallaidhean san àm ri teachd

Is dòcha gu bheil thu ag iarraidh