Artificial Intelligence
A’ measadh mhodalan cànain mòra: stiùireadh teicnigeach
Tha fèill mhòr air modalan cànain mòra (LLMn) leithid GPT-4, Claude, agus LLaMA. Taing don chomas aca teacsa air leth coltach ri daoine a ghineadh, tha na siostaman AI sin a-nis gan cleachdadh airson a h-uile càil bho chruthachadh susbaint gu chatbots seirbheis teachdaiche.
Ach ciamar a bhios fios againn a bheil na modailean sin fìor mhath? Le LLMn ùra gan ainmeachadh an-còmhnaidh, agus iad uile ag agairt gu bheil iad nas motha agus nas fheàrr, ciamar a nì sinn measadh agus coimeas air an coileanadh?
San iùl fharsaing seo, nì sinn sgrùdadh air na prìomh dhòighean airson modalan cànain mòra a mheasadh. Bheir sinn sùil air na buannachdan agus na h-eas-bhuannachdan a tha aig gach dòigh-obrach, nuair a thèid an cur an sàs as fheàrr, agus mar as urrainn dhut an cleachdadh nad dheuchainn LLM fhèin.
Metrics Sònraichte Gnìomha
Is e aon de na dòighean as sìmplidh air LLM a mheasadh a dhearbhadh air gnìomhan stèidhichte NLP a’ cleachdadh meatrach àbhaisteach. Mar eisimpleir:
Geàrr-chunntas
Airson gnìomhan geàrr-chunntas, metrics mar RIAGHAIL (Fo-thuigsinn a tha ag amas air cuimhne airson Measadh Gisting) air an cleachdadh gu cumanta. Bidh ROUGE a’ dèanamh coimeas eadar a’ gheàrr-chunntas a chaidh a chruthachadh le modail agus geàrr-chunntas “iomradh” air a sgrìobhadh le daoine, a’ cunntadh tar-tharraing fhaclan no abairtean.
Tha grunn blasan de ROUGE, gach fear le na buannachdan agus na cunntasan aca fhèin:
- ROUGE-N: Dèan coimeas eadar tar-tharraing de n-graman (sreathan de N faclan). ROUGE-1 a’ cleachdadh unigrams (faclan singilte), ROUGE-2 cleachdadh bigraman, msaa. 'S e a' bhuannachd a th' ann gu bheil e a' glacadh òrdugh fhaclan, ach faodaidh e a bhith ro theann.
- ROUGE-L: Stèidhichte air an t-sreath cumanta as fhaide (LCS). Nas sùbailte a thaobh òrdugh fhaclan ach fòcas air prìomh phuingean.
- ROUGE-W: Bidh cuideam LCS a’ maidseadh a rèir cho cudromach sa tha iad. Oidhirpean gus piseach a thoirt air ROUGE-L.
San fharsaingeachd, tha metrics ROUGE luath, fèin-ghluasadach, agus ag obair gu math airson geàrr-chunntasan siostam rangachadh. Ach, chan eil iad a’ tomhas ciall no ciall. Dh’ fhaodadh geàrr-chunntas sgòr àrd ROUGE fhaighinn agus a bhith neo-mhothachail fhathast.
Is e am foirmle airson ROUGE-N:
ROUGE-N=∑∈{Geàrr-chunntasan iomraidh}∑∑�∈{ Geàrr-chunntasan iomraidh}∑
Far a bheil:
Count_{match}(gram_n)
is e an cunntadh de n-graman an dà chuid anns a’ gheàrr-chunntas ginte agus sa gheàrr-iomradh.Count(gram_n)
an cunnt de n-graman anns a’ gheàrr-chunntas iomraidh.
Mar eisimpleir, airson ROUGE-1 (unigraman):
- Geàrr-chunntas air a ghineadh: “Shuidh an cat.”
- Geàrr-chunntas: “Shuidh an cat air a’ bhrat.”
- Unigrams a’ dol thairis air: “An”, “cat”, “shuidh”
- Sgòr ROUGE-1 = 3/5 = 0.6
ROUGE-L a’ cleachdadh an fho-sheicheamh cumanta as fhaide (LCS). Tha e nas sùbailte le òrdugh fhaclan. Is e am foirmle:
ROUGE-L = ��� (gineadh, iomradh) max (fad (gineadh), fad (iomradh))
Far a bheil LCS
is e fad an t-seicheamh cumanta as fhaide.
ROUGE-W cuideam a tha an LCS a 'maidseadh. Bidh e a’ beachdachadh air cudromachd gach geama san LCS.
Eadar-theangachadh
Airson gnìomhan eadar-theangachadh inneal, GORM (Fo-sgrùdadh Measaidh Dà-chànanach) na mheatrach mòr-chòrdte. Bidh BLEU a’ tomhas na tha coltach eadar eadar-theangachadh toraidh a’ mhodail agus eadar-theangachadh daonna proifeasanta, a’ cleachdadh mionaideachd n-gram agus peanas giorrad.
Prìomh thaobhan de mar a tha BLEU ag obair:
- Dèan coimeas eadar tar-tharraing de n-graman airson n suas gu 4 (unigrams, bigraman, trigraman, 4-gram).
- Obraich a-mach meadhan geoimeatrach nan mionaideachd n-gram.
- Cuirear peanas goirid an sàs ma tha eadar-theangachadh fada nas giorra na iomradh.
- Sa chumantas tha e eadar 0 agus 1, le 1 a’ freagairt gu foirfe ri iomradh.
Tha co-dhàimh reusanta math aig BLEU ri breithneachaidhean daonna air càileachd eadar-theangachaidh. Ach tha cuingealachaidhean ann fhathast:
- Na tomhas ach mionaideachd an aghaidh iomraidhean, chan e ath-ghairm no F1.
- A’ strì le eadar-theangachaidhean cruthachail a’ cleachdadh diofar fhacail.
- Tha e buailteach do “gheam” le cleasan eadar-theangachaidh.
Bidh meatrach eadar-theangachaidh eile leithid METEOR agus TER a’ feuchainn ri laigsean BLEU a leasachadh. Ach san fharsaingeachd, chan eil meatrach fèin-ghluasadach a’ glacadh càileachd eadar-theangachaidh gu h-iomlan.
Gnìomhachdan eile
A bharrachd air geàrr-chunntas agus eadar-theangachadh, faodar meatrach mar F1, cruinneas, MSE, agus barrachd a chleachdadh gus coileanadh LLM a mheasadh air gnìomhan mar:
- Seòrsachadh teacsa
- Toirt a-mach fiosrachaidh
- Freagairt na ceiste
- Mion-sgrùdadh sentiment
- Dearbhadh mearachdan gràmair
Is e a’ bhuannachd a tha ann an tomhasan gnìomh sònraichte gum faodar measadh a dhèanamh làn fèin-ghluasadach a’ cleachdadh stòran-dàta àbhaisteach leithid SQuAD airson QA agus glaodh slat-tomhais airson raon de ghnìomhan. Faodar toraidhean a leantainn gu furasta thar ùine mar a bhios modalan a’ fàs nas fheàrr.
Ach, tha fòcas cumhang air na meatrach seo agus chan urrainn dhaibh càileachd cànain iomlan a thomhas. Faodaidh LLMn a tha a’ coileanadh gu math air meatrach airson aon ghnìomh fàiligeadh ann a bhith a’ gineadh teacsa ciallach, loidsigeach, cuideachail san fharsaingeachd.
Slatan-tomhais rannsachaidh
Is e dòigh mòr-chòrdte airson LLMn a mheasadh a bhith gan deuchainn mu choinneamh slatan-tomhais rannsachaidh farsaing a’ còmhdach diofar chuspairean agus sgilean. Tha na slatan-tomhais sin a’ leigeil le modailean a bhith air an deuchainn gu sgiobalta aig sgèile.
Am measg cuid de shlatan-tomhais ainmeil tha:
- SuperGLUE - Seata dùbhlanach de 11 gnìomhan cànain eadar-mheasgte.
- glaodh - Cruinneachadh de 9 gnìomhan tuigse seantans. Nas sìmplidh na SuperGLUE.
- MMLU - 57 diofar ghnìomhan STEM, saidheansan sòisealta agus daonnachdan. Dèan deuchainn air eòlas agus comas reusanachaidh.
- Dùbhlan sgeama Winograd - Duilgheadasan fuasglaidh ainmean a dh’ fheumas reusanachadh ciallach.
- ARC - A’ toirt dùbhlan do ghnìomhan reusanachaidh cànain nàdarra.
- Heallaswag - Reusanachadh ciallach mu shuidheachaidhean.
- PIQA - Ceistean fiosaig a dh’ fheumas diagraman.
Le bhith a’ dèanamh measadh air slatan-tomhais mar seo, faodaidh luchd-rannsachaidh modalan deuchainn a dhèanamh gu sgiobalta air an comas air matamataigs, loidsig, reusanachadh, còdadh, ciall cumanta, agus mòran a bharrachd a choileanadh. Bidh an àireamh sa cheud de cheistean a chaidh a fhreagairt gu ceart gu bhith na mheatrach slat-tomhais airson coimeas a dhèanamh eadar modalan.
Ach, tha duilgheadas mòr ann le slatan-tomhais truailleadh dàta trèanaidh. Tha eisimpleirean ann am mòran shlatan-tomhais a bha mar-thà air fhaicinn le modalan rè ro-thrèanadh. Leigidh seo le modailean “meòraich” freagairtean do cheistean sònraichte agus dèan nas fheàrr na na fìor chomasan aca.
Thathas a’ dèanamh oidhirpean air “dì-thruailleadh” slatan-tomhais le bhith a’ toirt air falbh eisimpleirean a tha a’ dol thairis air. Ach tha e dùbhlanach seo a dhèanamh gu farsaing, gu h-àraidh nuair a dh’ fhaodadh gum biodh modailean air ath-ràdh no eadar-theangachadh de cheistean fhaicinn.
Mar sin ged as urrainn do shlatan-tomhais seata farsaing de sgilean a dhearbhadh gu h-èifeachdach, chan urrainn dhaibh fìor chomasan reusanachaidh a thomhas gu h-earbsach no sgòr atmhorachd a sheachnadh mar thoradh air truailleadh. Tha feum air dòighean measaidh co-phàirteach.
LLM Fèin-luachadh
Is e dòigh inntinneach a th’ ann gum bi LLM a’ measadh toraidhean LLM eile. Is e am beachd am bun-bheachd gnìomh “nas fhasa” a luathachadh:
- Is dòcha gum bi e doirbh do LLM toradh àrd-inbhe a dhèanamh.
- Ach faodaidh e a bhith na obair nas fhasa faighinn a-mach a bheil toradh sònraichte àrd-inbhe.
Mar eisimpleir, ged a dh’ fhaodadh LLM a bhith duilich paragraf fìrinneach, ciallach a ghineadh bhon fhìor thoiseach, is urrainn dha breithneachadh nas fhasa a bheil paragraf sònraichte a’ dèanamh ciall loidsigeach agus a’ freagairt air a’ cho-theacsa.
Mar sin tha am pròiseas:
- Cuir a-steach gu sgiobalta chun chiad LLM gus toradh a ghineadh.
- Cuir a-steach gu sgiobalta + toradh gineadh chun dàrna “measadh” LLM.
- Faighnich ceist don mheasadair LLM gus càileachd toraidh a mheasadh. me “A bheil an fhreagairt gu h-àrd a’ dèanamh ciall loidsigeach?”
Tha an dòigh-obrach seo luath airson a chuir an gnìomh agus fèin-ghluasadach measadh LLM. Ach tha cuid de dhùbhlain ann:
- Tha coileanadh gu mòr an urra ri roghainn neach-measaidh LLM agus briathrachas sgiobalta.
- Air a chuingealachadh le duilgheadas na h-obrach tùsail. Tha e fhathast doirbh do LLMn measadh a dhèanamh air reusanachadh iom-fhillte.
- Faodaidh e a bhith daor gu àireamhachd ma chleachdas tu LLMn stèidhichte air API.
Tha fèin-luachadh gu sònraichte gealltanach ann a bhith a’ measadh fiosrachadh a chaidh fhaighinn air ais ann an RAG (ginealach leasaichte-lorg) siostaman. Faodaidh ceistean LLM a bharrachd dearbhadh ma thèid an co-theacsa fhaighinn air ais a chleachdadh gu h-iomchaidh.
Uile gu lèir, tha fèin-mheasadh a' sealltainn comas ach tha feum air cùram ann a bhith ga chur an gnìomh. Bidh e a’ cur ri, seach a’ dol an àite, measadh daonna.
Measadh Daonna
Leis gu bheil crìochan air meatrach fèin-ghluasadach agus slatan-tomhais, tha measadh daonna fhathast na inbhe òir airson a bhith a’ measadh càileachd LLM gu cruaidh.
Faodaidh eòlaichean measaidhean càileachdail mionaideach a thoirt seachad air:
- Cruinneas agus fìrinn fhìrinneach
- Loidsig, reusanachadh, agus mothachadh cumanta
- Co-leanailteachd, cunbhalachd agus so-leughaidh
- Freagarrachd tòna, stoidhle agus guth
- Grammaticality agus fileantachd
- Cruthachalachd agus nuance
Gus modal a mheasadh, gheibh daoine seata de mholaidhean cuir a-steach agus na freagairtean a ghineadh LLM. Bidh iad a’ measadh càileachd fhreagairtean, gu tric a’ cleachdadh lannan rangachadh agus rubrics.
Is e an ana-cothrom gu bheil measadh làimhe daonna daor, slaodach, agus duilich a sgèile. Feumaidh e cuideachd slatan-tomhais àbhaisteach a leasachadh agus luchd-measaidh trèanaidh gus an cur an sàs gu cunbhalach.
Tha cuid de luchd-rannsachaidh air dòighean cruthachail a sgrùdadh gus measaidhean LLM daonna a mhaoineachadh le bhith a’ cleachdadh siostaman ann an stoidhle farpais far am bi daoine a’ geall agus a’ breithneachadh co-aoisean eadar modalan. Ach tha còmhdach fhathast cuibhrichte an taca ri làn mheasaidhean làimhe.
Airson cùisean cleachdadh gnìomhachais far a bheil càileachd nas cudromaiche na sgèile amh, tha deuchainnean daonna eòlach fhathast mar an ìre òir a dh’ aindeoin a chosgaisean. Tha seo gu sònraichte fìor airson tagraidhean nas cunnartaiche de LLMn.
Co-dhùnadh
Feumaidh measadh mionaideach a dhèanamh air modalan cànain mòra a bhith a’ cleachdadh inneal eadar-mheasgte de dhòighean co-phàirteach, seach a bhith an urra ri aon dòigh-obrach.
Le bhith a’ cothlamadh dhòighean-obrach fèin-ghluasadach airson astar le làn sgrùdadh daonna airson cruinneas, is urrainn dhuinn dòighean dearbhaidh earbsach a leasachadh airson modalan cànain mòra. Le measadh làidir, is urrainn dhuinn an comas air leth aig LLMn fhuasgladh fhad ‘s a tha sinn a’ riaghladh na cunnartan aca gu ciallach.