stub A’ measadh mhodalan cànain mòra: Iùl Teicnigeach - Unite.AI
Ceangal leinn

Artificial Intelligence

A’ measadh mhodalan cànain mòra: stiùireadh teicnigeach

mm

Published

 on

A’ measadh mhodalan cànain mòra

Tha fèill mhòr air modalan cànain mòra (LLMn) leithid GPT-4, Claude, agus LLaMA. Taing don chomas aca teacsa air leth coltach ri daoine a ghineadh, tha na siostaman AI sin a-nis gan cleachdadh airson a h-uile càil bho chruthachadh susbaint gu chatbots seirbheis teachdaiche.

Ach ciamar a bhios fios againn a bheil na modailean sin fìor mhath? Le LLMn ùra gan ainmeachadh an-còmhnaidh, agus iad uile ag agairt gu bheil iad nas motha agus nas fheàrr, ciamar a nì sinn measadh agus coimeas air an coileanadh?

San iùl fharsaing seo, nì sinn sgrùdadh air na prìomh dhòighean airson modalan cànain mòra a mheasadh. Bheir sinn sùil air na buannachdan agus na h-eas-bhuannachdan a tha aig gach dòigh-obrach, nuair a thèid an cur an sàs as fheàrr, agus mar as urrainn dhut an cleachdadh nad dheuchainn LLM fhèin.

Metrics Sònraichte Gnìomha

Is e aon de na dòighean as sìmplidh air LLM a mheasadh a dhearbhadh air gnìomhan stèidhichte NLP a’ cleachdadh meatrach àbhaisteach. Mar eisimpleir:

Geàrr-chunntas

Airson gnìomhan geàrr-chunntas, metrics mar RIAGHAIL (Fo-thuigsinn a tha ag amas air cuimhne airson Measadh Gisting) air an cleachdadh gu cumanta. Bidh ROUGE a’ dèanamh coimeas eadar a’ gheàrr-chunntas a chaidh a chruthachadh le modail agus geàrr-chunntas “iomradh” air a sgrìobhadh le daoine, a’ cunntadh tar-tharraing fhaclan no abairtean.

Tha grunn blasan de ROUGE, gach fear le na buannachdan agus na cunntasan aca fhèin:

  • ROUGE-N: Dèan coimeas eadar tar-tharraing de n-graman (sreathan de N faclan). ROUGE-1 a’ cleachdadh unigrams (faclan singilte), ROUGE-2 cleachdadh bigraman, msaa. 'S e a' bhuannachd a th' ann gu bheil e a' glacadh òrdugh fhaclan, ach faodaidh e a bhith ro theann.
  • ROUGE-L: Stèidhichte air an t-sreath cumanta as fhaide (LCS). Nas sùbailte a thaobh òrdugh fhaclan ach fòcas air prìomh phuingean.
  • ROUGE-W: Bidh cuideam LCS a’ maidseadh a rèir cho cudromach sa tha iad. Oidhirpean gus piseach a thoirt air ROUGE-L.

San fharsaingeachd, tha metrics ROUGE luath, fèin-ghluasadach, agus ag obair gu math airson geàrr-chunntasan siostam rangachadh. Ach, chan eil iad a’ tomhas ciall no ciall. Dh’ fhaodadh geàrr-chunntas sgòr àrd ROUGE fhaighinn agus a bhith neo-mhothachail fhathast.

Is e am foirmle airson ROUGE-N:

ROUGE-N=∑∈{Geàrr-chunntasan iomraidh}∑∑�∈{ Geàrr-chunntasan iomraidh}∑

Far a bheil:

  • Count_{match}(gram_n) is e an cunntadh de n-graman an dà chuid anns a’ gheàrr-chunntas ginte agus sa gheàrr-iomradh.
  • Count(gram_n) an cunnt de n-graman anns a’ gheàrr-chunntas iomraidh.

Mar eisimpleir, airson ROUGE-1 (unigraman):

  • Geàrr-chunntas air a ghineadh: “Shuidh an cat.”
  • Geàrr-chunntas: “Shuidh an cat air a’ bhrat.”
  • Unigrams a’ dol thairis air: “An”, “cat”, “shuidh”
  • Sgòr ROUGE-1 = 3/5 = 0.6

ROUGE-L a’ cleachdadh an fho-sheicheamh cumanta as fhaide (LCS). Tha e nas sùbailte le òrdugh fhaclan. Is e am foirmle:

ROUGE-L = ��� (gineadh, iomradh) max (fad (gineadh), fad (iomradh))

Far a bheil LCS is e fad an t-seicheamh cumanta as fhaide.

ROUGE-W cuideam a tha an LCS a 'maidseadh. Bidh e a’ beachdachadh air cudromachd gach geama san LCS.

Eadar-theangachadh

Airson gnìomhan eadar-theangachadh inneal, GORM (Fo-sgrùdadh Measaidh Dà-chànanach) na mheatrach mòr-chòrdte. Bidh BLEU a’ tomhas na tha coltach eadar eadar-theangachadh toraidh a’ mhodail agus eadar-theangachadh daonna proifeasanta, a’ cleachdadh mionaideachd n-gram agus peanas giorrad.

Prìomh thaobhan de mar a tha BLEU ag obair:

  • Dèan coimeas eadar tar-tharraing de n-graman airson n suas gu 4 (unigrams, bigraman, trigraman, 4-gram).
  • Obraich a-mach meadhan geoimeatrach nan mionaideachd n-gram.
  • Cuirear peanas goirid an sàs ma tha eadar-theangachadh fada nas giorra na iomradh.
  • Sa chumantas tha e eadar 0 agus 1, le 1 a’ freagairt gu foirfe ri iomradh.

Tha co-dhàimh reusanta math aig BLEU ri breithneachaidhean daonna air càileachd eadar-theangachaidh. Ach tha cuingealachaidhean ann fhathast:

  • Na tomhas ach mionaideachd an aghaidh iomraidhean, chan e ath-ghairm no F1.
  • A’ strì le eadar-theangachaidhean cruthachail a’ cleachdadh diofar fhacail.
  • Tha e buailteach do “gheam” le cleasan eadar-theangachaidh.

Bidh meatrach eadar-theangachaidh eile leithid METEOR agus TER a’ feuchainn ri laigsean BLEU a leasachadh. Ach san fharsaingeachd, chan eil meatrach fèin-ghluasadach a’ glacadh càileachd eadar-theangachaidh gu h-iomlan.

Gnìomhachdan eile

A bharrachd air geàrr-chunntas agus eadar-theangachadh, faodar meatrach mar F1, cruinneas, MSE, agus barrachd a chleachdadh gus coileanadh LLM a mheasadh air gnìomhan mar:

  • Seòrsachadh teacsa
  • Toirt a-mach fiosrachaidh
  • Freagairt na ceiste
  • Mion-sgrùdadh sentiment
  • Dearbhadh mearachdan gràmair

Is e a’ bhuannachd a tha ann an tomhasan gnìomh sònraichte gum faodar measadh a dhèanamh làn fèin-ghluasadach a’ cleachdadh stòran-dàta àbhaisteach leithid SQuAD airson QA agus glaodh slat-tomhais airson raon de ghnìomhan. Faodar toraidhean a leantainn gu furasta thar ùine mar a bhios modalan a’ fàs nas fheàrr.

Ach, tha fòcas cumhang air na meatrach seo agus chan urrainn dhaibh càileachd cànain iomlan a thomhas. Faodaidh LLMn a tha a’ coileanadh gu math air meatrach airson aon ghnìomh fàiligeadh ann a bhith a’ gineadh teacsa ciallach, loidsigeach, cuideachail san fharsaingeachd.

Slatan-tomhais rannsachaidh

Is e dòigh mòr-chòrdte airson LLMn a mheasadh a bhith gan deuchainn mu choinneamh slatan-tomhais rannsachaidh farsaing a’ còmhdach diofar chuspairean agus sgilean. Tha na slatan-tomhais sin a’ leigeil le modailean a bhith air an deuchainn gu sgiobalta aig sgèile.

Am measg cuid de shlatan-tomhais ainmeil tha:

  • SuperGLUE - Seata dùbhlanach de 11 gnìomhan cànain eadar-mheasgte.
  • glaodh - Cruinneachadh de 9 gnìomhan tuigse seantans. Nas sìmplidh na SuperGLUE.
  • MMLU - 57 diofar ghnìomhan STEM, saidheansan sòisealta agus daonnachdan. Dèan deuchainn air eòlas agus comas reusanachaidh.
  • Dùbhlan sgeama Winograd - Duilgheadasan fuasglaidh ainmean a dh’ fheumas reusanachadh ciallach.
  • ARC - A’ toirt dùbhlan do ghnìomhan reusanachaidh cànain nàdarra.
  • Heallaswag - Reusanachadh ciallach mu shuidheachaidhean.
  • PIQA - Ceistean fiosaig a dh’ fheumas diagraman.

Le bhith a’ dèanamh measadh air slatan-tomhais mar seo, faodaidh luchd-rannsachaidh modalan deuchainn a dhèanamh gu sgiobalta air an comas air matamataigs, loidsig, reusanachadh, còdadh, ciall cumanta, agus mòran a bharrachd a choileanadh. Bidh an àireamh sa cheud de cheistean a chaidh a fhreagairt gu ceart gu bhith na mheatrach slat-tomhais airson coimeas a dhèanamh eadar modalan.

Ach, tha duilgheadas mòr ann le slatan-tomhais truailleadh dàta trèanaidh. Tha eisimpleirean ann am mòran shlatan-tomhais a bha mar-thà air fhaicinn le modalan rè ro-thrèanadh. Leigidh seo le modailean “meòraich” freagairtean do cheistean sònraichte agus dèan nas fheàrr na na fìor chomasan aca.

Thathas a’ dèanamh oidhirpean air “dì-thruailleadh” slatan-tomhais le bhith a’ toirt air falbh eisimpleirean a tha a’ dol thairis air. Ach tha e dùbhlanach seo a dhèanamh gu farsaing, gu h-àraidh nuair a dh’ fhaodadh gum biodh modailean air ath-ràdh no eadar-theangachadh de cheistean fhaicinn.

Mar sin ged as urrainn do shlatan-tomhais seata farsaing de sgilean a dhearbhadh gu h-èifeachdach, chan urrainn dhaibh fìor chomasan reusanachaidh a thomhas gu h-earbsach no sgòr atmhorachd a sheachnadh mar thoradh air truailleadh. Tha feum air dòighean measaidh co-phàirteach.

LLM Fèin-luachadh

Is e dòigh inntinneach a th’ ann gum bi LLM a’ measadh toraidhean LLM eile. Is e am beachd am bun-bheachd gnìomh “nas fhasa” a luathachadh:

  • Is dòcha gum bi e doirbh do LLM toradh àrd-inbhe a dhèanamh.
  • Ach faodaidh e a bhith na obair nas fhasa faighinn a-mach a bheil toradh sònraichte àrd-inbhe.

Mar eisimpleir, ged a dh’ fhaodadh LLM a bhith duilich paragraf fìrinneach, ciallach a ghineadh bhon fhìor thoiseach, is urrainn dha breithneachadh nas fhasa a bheil paragraf sònraichte a’ dèanamh ciall loidsigeach agus a’ freagairt air a’ cho-theacsa.

Mar sin tha am pròiseas:

  1. Cuir a-steach gu sgiobalta chun chiad LLM gus toradh a ghineadh.
  2. Cuir a-steach gu sgiobalta + toradh gineadh chun dàrna “measadh” LLM.
  3. Faighnich ceist don mheasadair LLM gus càileachd toraidh a mheasadh. me “A bheil an fhreagairt gu h-àrd a’ dèanamh ciall loidsigeach?”

Tha an dòigh-obrach seo luath airson a chuir an gnìomh agus fèin-ghluasadach measadh LLM. Ach tha cuid de dhùbhlain ann:

  • Tha coileanadh gu mòr an urra ri roghainn neach-measaidh LLM agus briathrachas sgiobalta.
  • Air a chuingealachadh le duilgheadas na h-obrach tùsail. Tha e fhathast doirbh do LLMn measadh a dhèanamh air reusanachadh iom-fhillte.
  • Faodaidh e a bhith daor gu àireamhachd ma chleachdas tu LLMn stèidhichte air API.

Tha fèin-luachadh gu sònraichte gealltanach ann a bhith a’ measadh fiosrachadh a chaidh fhaighinn air ais ann an RAG (ginealach leasaichte-lorg) siostaman. Faodaidh ceistean LLM a bharrachd dearbhadh ma thèid an co-theacsa fhaighinn air ais a chleachdadh gu h-iomchaidh.

Uile gu lèir, tha fèin-mheasadh a' sealltainn comas ach tha feum air cùram ann a bhith ga chur an gnìomh. Bidh e a’ cur ri, seach a’ dol an àite, measadh daonna.

Measadh Daonna

Leis gu bheil crìochan air meatrach fèin-ghluasadach agus slatan-tomhais, tha measadh daonna fhathast na inbhe òir airson a bhith a’ measadh càileachd LLM gu cruaidh.

Faodaidh eòlaichean measaidhean càileachdail mionaideach a thoirt seachad air:

  • Cruinneas agus fìrinn fhìrinneach
  • Loidsig, reusanachadh, agus mothachadh cumanta
  • Co-leanailteachd, cunbhalachd agus so-leughaidh
  • Freagarrachd tòna, stoidhle agus guth
  • Grammaticality agus fileantachd
  • Cruthachalachd agus nuance

Gus modal a mheasadh, gheibh daoine seata de mholaidhean cuir a-steach agus na freagairtean a ghineadh LLM. Bidh iad a’ measadh càileachd fhreagairtean, gu tric a’ cleachdadh lannan rangachadh agus rubrics.

Is e an ana-cothrom gu bheil measadh làimhe daonna daor, slaodach, agus duilich a sgèile. Feumaidh e cuideachd slatan-tomhais àbhaisteach a leasachadh agus luchd-measaidh trèanaidh gus an cur an sàs gu cunbhalach.

Tha cuid de luchd-rannsachaidh air dòighean cruthachail a sgrùdadh gus measaidhean LLM daonna a mhaoineachadh le bhith a’ cleachdadh siostaman ann an stoidhle farpais far am bi daoine a’ geall agus a’ breithneachadh co-aoisean eadar modalan. Ach tha còmhdach fhathast cuibhrichte an taca ri làn mheasaidhean làimhe.

Airson cùisean cleachdadh gnìomhachais far a bheil càileachd nas cudromaiche na sgèile amh, tha deuchainnean daonna eòlach fhathast mar an ìre òir a dh’ aindeoin a chosgaisean. Tha seo gu sònraichte fìor airson tagraidhean nas cunnartaiche de LLMn.

Co-dhùnadh

Feumaidh measadh mionaideach a dhèanamh air modalan cànain mòra a bhith a’ cleachdadh inneal eadar-mheasgte de dhòighean co-phàirteach, seach a bhith an urra ri aon dòigh-obrach.

Le bhith a’ cothlamadh dhòighean-obrach fèin-ghluasadach airson astar le làn sgrùdadh daonna airson cruinneas, is urrainn dhuinn dòighean dearbhaidh earbsach a leasachadh airson modalan cànain mòra. Le measadh làidir, is urrainn dhuinn an comas air leth aig LLMn fhuasgladh fhad ‘s a tha sinn a’ riaghladh na cunnartan aca gu ciallach.

Tha mi air na còig bliadhna a dh’ fhalbh a’ bogadh fhèin ann an saoghal inntinneach Ionnsachadh Inneal agus Ionnsachadh domhainn. Tha an dìoghras agus an t-eòlas agam air toirt orm cur ri còrr air 50 pròiseact innleadaireachd bathar-bog eadar-mheasgte, le fòcas sònraichte air AI/ML. Tha mo fheòrachas leantainneach cuideachd air mo tharraing a dh’ ionnsaigh Natural Language Processing, raon air a bheil mi airson tuilleadh sgrùdaidh a dhèanamh.