Ceangal leinn

Innleadaireachd sgiobalta

Trèanadh freumhachadh teacsa nas fheàrr le modalan cànain mòra

mm

Published

 on

Tha neadachadh teacsa mar riochdachaidhean feòir de fhaclan, seantansan, paragrafan no sgrìobhainnean a ghlacas an ciall semantach. Tha iad nam prìomh bhloca togail ann an iomadh tagradh giollachd cànain nàdarra (NLP) an-diugh, a’ toirt a-steach lorg fiosrachaidh, freagairt cheistean, sgrùdadh semantach agus barrachd.

stèidheachadh vector

stèidheachadh vector

Tha adhartasan o chionn ghoirid ann am modalan cànain mòra (LLMn) mar GPT-3 air comasan iongantach a nochdadh ann an ionnsachadh le glè bheag de dhealbhan agus gineadh cànain nàdarra. An urrainn dhuinn LLMn a luathachadh gus staid freumhachadh teacsa adhartachadh cuideachd? Anns a’ phàipear aca “Ag adhartachadh freumhachadh teacsa le modalan cànain mòra“, Tha luchd-rannsachaidh bho Microsoft a’ moladh dòigh ùr a choileanas toraidhean nas fheàrr le bhith a’ gineadh dàta trèanaidh synthetigeach le LLMn agus a’ gleusadh air.

Dùbhlain le Modhan a tha ann mar-thà

Chan eil dòighean gnàthachaidh teacsa traidiseanta leithid cuibheasachd cuideam de vectaran fhaclan no TF-IDF a’ glacadh gu leòr am fiosrachadh co-theacsach beairteach ann an teacsa. Bidh modhan nas ùire stèidhichte air modalan cànain ro-thrèanadh mar BERT a’ faighinn greimeachadh nas mothachail air co-theacsa.

Ach, tha feum aca air pìoban trèanaidh ioma-ìre iom-fhillte:

  • Dèan ro-thrèanadh air na billeanan de chàraidean teacsa le bileagan lag no fuadain
  • Dèan gleusadh air stòran-dàta cuibhrichte le làimh

Feumaidh seo goireasan coimpiutaireachd mòr agus oidhirp dhaonna airson cruinneachadh dàta. Tha an dàta trèanaidh cuideachd air a chuingealachadh a thaobh iomadachd agus còmhdach cànain. Mar eisimpleir, tha an slat-tomhais BEIR a’ toirt a-steach stòran-dàta airson dìreach 15 gnìomhan lorg ann am Beurla.

Bidh dòighean a th’ ann mar-thà gu ìre mhòr a’ cleachdadh ailtirean nas lugha ann an stoidhle BERT mar mhodail cnàimh-droma. Chan urrainn dhaibh brath a ghabhail air LLMn nas adhartaiche agus dòighean co-cheangailte riutha.

Dòigh-obrach: Gineadh Dàta Synthetic le LLMn

Gus faighinn thairis air na cuingeadan sin, tha an luchd-rannsachaidh a’ moladh dòigh-obrach trèanaidh aon-ìre ùr a bhios a’ cleachdadh LLMn mar GPT-3 agus GPT-4 gus dàta trèanaidh synthetigeach eadar-mheasgte a ghineadh.

Is iad na prìomh cheumannan:

  1. Tacsonamaidh nan Gnìomhan: Mìnich tacsonamaidh a tha a’ seòrsachadh ghnìomhan a’ neadachadh teacsa gu:
    • Gnìomhan neo-chunbhalach (ceist is sgrìobhainn nach eil ag ath-aithris m.e. rannsachadh)
    • Gnìomhan co-chothromach (tha ceist agus sgrìobhainn nam faclan eile m.e. coltas semantach)
  2. Dealbhadh sgiobalta: Cruthaich teamplaidean sgiobalta air an dealbhadh a rèir gach seòrsa gnìomh a stiùireas an LLM gus eisimpleirean trèanaidh iomchaidh a ghineadh.
  3. Gineadh dàta synthetach: Brosnaich an LLM leis na molaidhean dealbhaichte gus na ceudan de mhìltean de phaidhrichean (ceist, sgrìobhainn) a ghineadh a’ còmhdach measgachadh farsaing de ghnìomhan semantach thar 93 cànan.
  4. Trèanadh modail: Dèan grinn air LLM stòr fosgailte cumhachdach leithid Mistral air an dàta synthetigeach a’ cleachdadh call eadar-dhealaichte.

Tha am modh-obrach seo a’ ceadachadh dàta trèanaidh gu leòr a chruthachadh airson gnìomhan eadar-mheasgte ann an ioma-chànanan gun oidhirp leubail daonna sam bith. Le bhith a’ faighinn buannachd às an eòlas a tha freumhaichte ann an LLMn mar-thà tro thrèanadh ro-làimh air corpora sgèile-lìn, is urrainn dhuinn dàta àrd-inbhe a cho-chur a tha air a dhealbhadh gu sònraichte airson teacsadh teacsa.

Bidh an luchd-rannsachaidh a’ taisbeanadh seo le ro-innleachd brosnachaidh 2-cheum:

  • Brosnaich GPT-4 gus gnìomhan ath-lorg a mholadh

Spreagadh airson gnìomhan trusaidh àrd-ìre a ghineadh

    Spreagadh airson gnìomhan trusaidh àrd-ìre a ghineadh
  • Brosnaich e a-rithist gus sampallan a ghineadh (ceist, sgrìobhainn) stèidhichte air na gnìomhan a chaidh a mholadh

n cruthaich triplets (ceist, dearbhach, cruaidh àicheil).

    n cruthaich triplets (ceist, dearbhach, cruaidh àicheil).

Cuid de phrìomh thaobhan den dealbhadh sgiobalta:

  • Bidh cànan nàdurrach a’ brosnachadh stiùireadh intuitive coltach ri duine
  • Luchd-àite gus iomadachd a bhrosnachadh (m.e. fad ceiste, soilleireachd, fad sgrìobhainn)
  • A’ cothlamadh dàta bho iomadh teamplaid airson an aon sheòrsa gnìomh
  • Cànanan cuideam a rèir na tha ri fhaighinn de ghoireasan

Gu h-iomlan, bha e comasach dhaibh eisimpleirean freumhachadh teacsa 500k a ghineadh aig cosgais coimpiutaireachd 180M comharran. B’ e Beurla am prìomh chànan (43%) le Pòlainnis, Seapanais, Eadailtis is eile.

Airson trèanadh modail, roghnaich iad am paramadair stòr fosgailte 7B a ghleusadh gu grinn Mistral modail an àite ailtireachd nas lugha ann an stoidhle BERT. Leis gu robh Mistral air a thrèanadh ro-làimh air corpora teacsa mòr, cha robh feum air ro-thrèanadh eadar-dhealaichte a bharrachd. Le bhith ga chur ris thug e glè bheag de leasachaidhean.

Ghabh an gleusadh gu lèir nas lugha na ceumannan 1k, a’ cleachdadh measgachadh de dhàta synthetigeach agus le bileagan daonna. Tha seo a’ sealltainn èifeachdas sampall an dòigh-obrach a thathar a’ moladh.

toraidhean

Rinn an luchd-rannsachaidh measadh air a’ mhodail aca air slat-tomhais MTEB, a tha a’ còmhdach diofar ghnìomhan thairis air seòrsachadh, cruinneachadh, coltas semantach, geàrr-chunntas agus lorg fiosrachaidh.

Am modail aca rinn e nas fheàrr na an ìre as ùire le 2.4 puingean ann an sgòr cuibheasach, a’ stèidheachadh chlàran ùra airson cha mhòr a h-uile roinn:

modailSOTA roimheModail air a mholadh
Seòrsachadh76.078.5
Buidheannachadh46.150.3
Seòrsachadh Pairwise87.188.3
Ath-rangachadh60.060.2
Togail54.356.9
STS83.184.6
Geàrr-chunntas31.631.4
cuibheasach64.266.6

Gu h-iongantach, eadhon às aonais a bhith a’ cleachdadh dàta le bileagan agus trèanadh a-mhàin air dàta synthetigeach, choilean e cruinneas farpaiseach - dìreach 3.5 puingean air cùl a’ mhodail làn-stiùiridh. Tha seo a’ sealltainn cho comasach ‘s a tha e bhith a’ gineadh in-ghabhail teacsa dìreach a’ cleachdadh LLMn, gun oidhirp notaichean daonna.

Rinn an luchd-rannsachaidh measadh cuideachd air a’ shlat-tomhais ioma-chànanach MIRCL a’ còmhdach 18 cànan. Rinn am modail aca na b’ fheàrr na b’ fheàrr roimhe ann an cànanan le goireasan àrd ach bha e na bu laige air feadhainn le goireasan ìosal. Tha iad a’ gabhail beachd gum faodadh seo a bhith air a lasachadh le bhith a’ trèanadh LLMn nas fharsainge air cànanan le goireasan ìosal.

Ann an geàrr-chunntas, bidh in-ghabhail teacsa air a thrèanadh air dàta synthetigeach a ghineadh LLM a’ stèidheachadh toraidhean ùr-nodha, agus aig an aon àm a’ cleachdadh trèanadh nas sìmplidh agus nas èifeachdaiche an coimeas ri modhan ioma-ìre roimhe. Le tuilleadh rannsachaidh air innleadaireachd sgiobalta agus càileachd dàta synthetigeach, dh’ fhaodadh am modh-obrach seo adhartachadh gu mòr air in-ghabhail teacsa ioma-chànanach.

Mion-sgrùdadh

Tha an obair seo a’ tabhann grunn bhiadhan-bìdh luachmhor:

  • Tha comas iongantach aig LLMn mar GPT-3 agus GPT-4 dàta trèanaidh synthetigeach àrd-inbhe a ghineadh airson gnìomhan eadar-mheasgte NLP nuair a thèid am brosnachadh gu h-iomchaidh. Faodaidh seo eisimeileachd air dàta le bileagan daonna a lughdachadh.
  • Airson neadachadh teacsa, tha ro-thrèanadh eadar-dhealaichte a’ toirt buannachdan glè bheag thairis air modalan gleusaidh dìreach mar Mistral aig a bheil ro-thrèanadh aig sgèile trillean mu thràth. Tha seo na shealladh cudromach air èifeachdas trèanaidh.
  • Tha dòighean ginealach leasaichte ath-ghairm a’ toirt cothrom do LLMn eòlas fhaighinn air an taobh a-muigh gu dinamach. Mar sin tha e luachmhor a bhith a’ leasachadh freumhachadh teacsa airson na LLMn sin a neartachadh.
  • Tha mòran rùm ann airson leasachadh ann an cànanan le goireasan ìosal. Dh’fhaodadh LLMan ioma-chànanach air an trèanadh ro-làimh air dàta nas riochdaiche cuideachadh gus a’ bheàrn seo a dhùnadh.
  • Gu bun-bheachdail, tha modaladh cànain agus neadachadh teacsa dà thaobh den aon bhuinn – a’ tuigsinn semantics cànain. Le brosnachadh dàta synthetigeach, faodar LLMn a ghleusadh gu h-organach a-steach do fhigheadairean às aonais pìoban iom-fhillte.

Am measg cuid de stiùiridhean gealltanach airson obair san àm ri teachd tha:

  • A’ cleachdadh LLMn stòr fosgailte mar GPT-NeoX gus dàta synthetigeach a ghineadh
  • A’ sgrùdadh iar-thrèanadh aotrom gus leabairean atharrachadh gu co-theacsan nas fhaide
  • Leasachadh dhòighean innleadaireachd sgiobalta gus smachd a chumail air càileachd agus còmhdach gnìomh
  • Dòighean gus latency co-dhùnaidh agus cosgaisean stòraidh airson cleachdadh gnìomhachais a leasachadh

A bharrachd air a bhith a’ bualadh air slatan-tomhais, le bhith a’ cleachdadh mhodalan cànain mòra gus greimeachadh teacsa a neartachadh a’ fosgladh chothroman inntinneach airson an ama ri teachd. Mar a bhios LLMn a’ leantainn air adhart a’ toirt air adhart am maighstireachd air cànan nàdarrach, tha coltas ann gun tig piseach air an comas air dàta synthetigeach àrd-dhìleas a ghineadh cuideachd.

Ach, tha stiùireadh rannsachaidh deatamach ann fhathast gus an comas seo a thionndadh gu buaidh san t-saoghal fhìor.

Gnàthachadh agus smachd

Is e prìomh bhuannachd dàta synthetigeach an comas eisimpleirean a ghineadh gu prògramach a rèir feumalachdan sònraichte. Mar a sheall am pàipear, tha innleadaireachd sgiobalta a’ ceadachadh dàta trèanaidh a chruthachadh airson ceudan de mhìltean de ghnìomhan freumhachaidh.

Ach, tha cleachdaidhean dealbhaidh sgiobalta gnàthach fhathast nan ealain na saidheans. Le bhith a’ leasachadh dhòighean eagarach, ath-ghinte gus smachd mionaideach a chumail air feartan dàta gineadh, leudaichidh sin iomchaidheachd an dòigh seo.

Mar eisimpleir, dh’ fhaodadh dòighean gus factaran atharrachadh leithid iom-fhillteachd, mì-chinnt agus ùr-ghnàthachadh eisimpleirean cuideachadh le bhith a’ dèiligeadh ri cùisean neart ann an gnìomhan sìos an abhainn. Is e dùbhlan fosgailte eile a th’ ann an gineadh sgiobalta fiùghantach gus a bhith a rèir sgaoilidhean san t-saoghal fhìor.

Trèanadh aig astar

Ged a tha LLMan ro-thrèanadh mu thràth a’ còdachadh eòlas cànain susbainteach, tha coltas ann gun tèid na sgilean gineadh dàta aca a leasachadh le sgèile a bharrachd. Tha modalan mar GPT-4 air an trèanadh air trilleanan de chomharran teacsa eadar-lìn a’ nochdadh ionnsachadh làidir le glè bheag de dhealbhan, ach cha deach an leasachadh gu sònraichte airson dàta trèanaidh a cho-chur.

Dh’ fhaodadh ailtirean agus amasan a tha air an dealbhadh gu sònraichte airson gineadh dàta fèin-stiùirichte aig sgèile-lìn adhartachadh gu mòr air càileachd agus èifeachdas a’ mhodh-obrach seo. Tha amalachadh èifeachdach de eòlas a chaidh fhaighinn air ais gus cur ri eòlas ionnsaichte na stiùireadh gealltanach eile.

Ioma-ghnìomh agus ioma-chànanach

Mar a thuirt am pàipear, tha leasachadh coileanaidh ann an cànanan le goireasan ìosal fhathast na chùis. An àite a bhith a’ trèanadh aon LLM mòr ro-làimh, is e roghainn eile a bhith a’ trèanadh cabhlach de mhodalan eòlach nas lugha a bhios a’ speisealachadh ann am modhan dàta sònraichte no raointean cànain.

Dh’fhaodadh dòigh-obrach cho-chruinneachadh mar seo cuideachadh le bhith a’ leasachadh craoladh thairis air gnìomhan agus cànanan tearc le bhith a’ roinn riochdachaidhean a chaidh ionnsachadh thar eòlaichean. Tha ionnsachadh leantainneach gus eòlas cànain is gnìomh a leudachadh thar ùine cuideachd na shealladh inntinneach.

Ann an co-dhùnadh, tha am pàipear seo a’ toirt a-steach bun-bheachd ùr-ghnàthach mu bhith a’ co-chur dàta trèanaidh bho LLMn gus teacsaichean teacsa cleasaichean a chruthachadh. Tha na co-dhùnaidhean aca a’ sealltainn èifeachdas a’ mhodh-obrach seo, a’ coileanadh nas fheàrr na slatan-tomhais a bh’ ann roimhe. Mar a bhios LLMn agus dòighean dàta synthetigeach a’ dol air adhart, dh’ fhaodadh a bhith a’ cleachdadh an cuid eòlais gus luchd-gleidhidh a thrèanadh a bhith na stiùir gealltanach.

Tha mi air na còig bliadhna a dh’ fhalbh a’ bogadh fhèin ann an saoghal inntinneach Ionnsachadh Inneal agus Ionnsachadh domhainn. Tha an dìoghras agus an t-eòlas agam air toirt orm cur ri còrr air 50 pròiseact innleadaireachd bathar-bog eadar-mheasgte, le fòcas sònraichte air AI/ML. Tha mo fheòrachas leantainneach cuideachd air mo tharraing a dh’ ionnsaigh Natural Language Processing, raon air a bheil mi airson tuilleadh sgrùdaidh a dhèanamh.