stuacach Conas Próiseáil Teanga a Fheabhsú Trí Shamhail Foinse Oscailte BERT de chuid Google - Unite.AI
Ceangail le linn

Faisnéise Saorga

Conas Próiseáil Teanga a Fheabhsú Trí Shamhail Foinse Oscailte BERT de chuid Google

mm
Nuashonraithe on
Feabhsuithe Cuardaigh BERT

Ionchódóir Déthreo Léiriúcháin ó Chlaochladáin, ar a dtugtar BERT ar shlí eile; is samhail oiliúna é a chuir feabhas mór ar éifeachtúlacht agus ar éifeacht samhlacha NLP. Anois go bhfuil samhlacha foinse oscailte déanta ag Google, ceadaíonn sé feabhas a chur ar mhúnlaí NLP i ngach tionscal. San alt, féachaimid ar an gcaoi a bhfuil NLP ag déanamh NLP ar cheann de na réitigh AI is cumhachtaí agus is úsáidí i saol an lae inniu. 

Samhlacha BERT a chur i bhfeidhm ar Chuardach

Tá cáil dhomhanda ar inneall cuardaigh Google as a chumas ábhar ábhartha a chur i láthair agus tá an clár próiseála teanga nádúrtha seo oscailte don domhan mór.

Tá cumas córais teanga nádúrtha a léamh agus a léirmhíniú ag éirí níos tábhachtaí de réir mar a tháirgeann an domhan sonraí nua go heaspónantúil. Tá leabharlann bríonna focal, frásaí agus cumas ginearálta Google chun ábhar ábhartha a chur i láthair, FOINSE OSCAILTE. Seachas próiseáil teanga nádúrtha, tá an cumas ag a múnla BERT faisnéis a bhaint as méideanna móra sonraí neamhstruchtúrtha agus is féidir é a chur i bhfeidhm chun comhéadain chuardaigh a chruthú d'aon leabharlann. San Airteagal seo, feicfimid conas is féidir an teicneolaíocht seo a chur i bhfeidhm san earnáil fuinnimh. 

Is cur chuige réamh-oiliúna é BERT (Léirithe Ionchódóra Déthreo ó Chlaochladáin) atá molta ag an Teanga Google AI grúpa, a forbraíodh chun saincheist choitianta a bhaineann le samhlacha NLP luath a shárú: an easpa sonraí oiliúna leordhóthanacha.

Déanaimis mionsaothrú, gan dul isteach i bhfad ró-mhionsonraithe:

Múnlaí Oiliúna

Leibhéal íseal (m.sh. aithint aonáin ainmnithe, deighilt topaicí) agus ardleibhéil (m.sh. anailís sentiment, aithint cainte) Éilíonn tascanna NLP tacair shonraí anótáilte a bhaineann go sonrach le tasc. Cé gur deacair teacht orthu agus costasach le cur le chéile, tá ról ríthábhachtach ag tacair sonraí lipéadaithe i bhfeidhmiú samhlacha líonra néar-éadomhain agus domhain araon. Níorbh fhéidir torthaí tátail ardcháilíochta a bhaint amach ach amháin nuair a bhí na milliúin nó fiú na billiúin samplaí oiliúna anótáilte ar fáil. Agus ba fhadhb í sin a d’fhág go raibh go leor tascanna NLP dosroichte. Is é sin go dtí gur forbraíodh BERT.

Múnla ionadaíochta teanga ilchuspóra is ea BERT, atá oilte ar chorpas mór téacs gan nótaí. Nuair a bhíonn an tsamhail faoi lé méid mór ábhar téacs, sé foghlaimíonn comhthéacs agus gaolta idir focail in abairt a thuiscint. Murab ionann agus samhlacha foghlama roimhe seo nár léirigh ach brí ag leibhéal focal (banc chiallódh sé an rud céanna i “cuntas bainc” agus “banc féir”), tá an comhthéacs ag baint le BET i ndáiríre. Is é sin, cad a thagann roimh agus tar éis an focal in abairt. Tháinig an comhthéacs amach mar acmhainn mhór in easnamh ar shamhlacha NLP, le tionchar díreach ar fheidhmíocht na samhla. Tá aithne ag go leor daoine ar mhúnla atá feasach ar chomhthéacs a dhearadh mar BERT mar thús ré nua in NLP.

Teicníc ar a dtugtar oiliúint BERT ar mhéideanna móra d'ábhar téacs réamhoiliúint. Ciallaíonn sé seo go ndéantar meáchain an mhúnla a choigeartú le haghaidh tascanna ginearálta tuiscint téacs agus gur féidir samhlacha níos míne a thógáil ar a bharr. Chruthaigh na húdair sármhaitheas a leithéid de theicníc nuair a d’úsáid siad samhlacha bunaithe ar BERT ar 11 thasc NLP agus nuair a bhain siad torthaí den scoth amach.

Múnlaí Réamh-Oiliúna

Is é an rud is fearr: tá samhlacha BERT réamh-oilte foinse oscailte agus ar fáil go poiblí. Ciallaíonn sé seo gur féidir le duine ar bith dul i ngleic le tascanna NLP agus a gcuid samhlacha a thógáil ar bharr BERT. Is féidir aon rud buille sin, ceart? Ó, fan: ciallaíonn sé seo freisin gur féidir samhlacha NLP a oiliúint (mionchoigeartú) ar thacair sonraí níos lú, gan gá le hoiliúint ón tús. Tús ré nua, go deimhin.

Cuidíonn na samhlacha réamhoilte seo le cuideachtaí an costas agus an t-am a bhaineann le himscaradh a laghdú do mhúnlaí NLP le húsáid go hinmheánach nó go seachtrach. Cuireann Michael Alexis, POF na cuideachta fíorúil tógála cultúir foirne, teambuilding.com béim ar éifeachtacht na samhlacha NLP dea-oilte. 

“Is é an buntáiste is mó a bhaineann le NLP ná tátal inscálaithe comhsheasmhach agus próiseáil faisnéise.” – Michael Alexis Príomhfheidhmeannach tógáil foirne.com

Luann Michael conas is féidir NLP a chur i bhfeidhm ar chláir chothaithe cultúir ar nós icebreakers nó suirbhéanna. Is féidir le cuideachta léargas luachmhar a fháil ar conas atá ag éirí le cultúr na cuideachta trí anailís a dhéanamh ar fhreagraí fostaithe. Baintear é seo amach ní hamháin trí anailís a dhéanamh ar théacs ach trí anailís a dhéanamh ar anótáil téacs. Go bunúsach, “léann an tsamhail idir na línte” freisin chun tátail a bhaint as an mothúchán, an mothúchán agus an dearcadh foriomlán. Is féidir le CRET cabhrú le cásanna mar an gceann seo trí réamhoiliúint a chur ar mhúnlaí le bonn táscairí chun gur féidir leis nuances teanga a nochtadh agus léargais níos cruinne a sholáthar.  

Fiosrúcháin a fheabhsú

Tá an cumas comhthéacs a shamhaltú tar éis BERT a iompú ina laoch NLP agus tá Cuardach Google é féin a athbheochan. Seo thíos sliocht ón bhfoireann táirgí Google Search agus a dtaithí tástála, agus iad ag tiúnadh BERT chun an rún a bhí taobh thiar d’fhiosrúchán a thuiscint.

“Seo cuid de na samplaí a léiríonn cumas BERT an rún atá taobh thiar de do chuardach a thuiscint. Seo cuardach do “Tá víosa ag teastáil ó thaistealaí Brasaíle 2019 go SAM.” Tá tábhacht ar leith ag baint leis an bhfocal “go” agus an gaol atá aige leis na focail eile sa cheist chun an bhrí a thuiscint. Baineann sé le Brasaíleach ag taisteal go SAM agus ní an bealach eile timpeall. Roimhe seo, ní thuigfeadh ár n-halgartaim tábhacht an cheangail seo, agus thugamar torthaí ar ais maidir le saoránaigh SAM ag taisteal go dtí an Bhrasaíl. Le BERT, tá Search in ann an nuance seo a thuiscint agus fios a bheith aige go bhfuil an-tábhacht ag baint leis an bhfocal an-choitianta “go” anseo, agus is féidir linn toradh i bhfad níos ábhartha a sholáthar don cheist seo.”
- Cuardach a thuiscint níos fearr ná riamh, le Pandu Nayak, Comhalta Google agus Leas-Uachtarán an Chuardaigh.

Sampla cuardaigh BERT

Sampla cuardaigh BERT, roimh agus ina dhiaidh. Foinse blog

In ár píosa deireanach ar NLP agus OCR, tá roinnt úsáidí NLP léirithe againn san earnáil eastát réadach. Luaigh muid freisin gur uirlisí sármhaithe asbhainte faisnéise iad uirlisí NLP. Breathnaímid ar an earnáil fuinnimh agus féachaint conas a chuireann teicneolaíochtaí suaiteacha NLP ar nós BERT ar chumas cásanna úsáide feidhmchláir nua. 

Is féidir le samhlacha NLP faisnéis a bhaint as méideanna móra sonraí neamhstruchtúrtha

Bealach amháin inar féidir samhlacha NLP a úsáid is ea faisnéis ríthábhachtach a bhaint as sonraí téacs neamhstruchtúrtha. Is samplaí iad ríomhphoist, irisleabhair, nótaí, logaí agus tuarascálacha d’fhoinsí sonraí téacs atá mar chuid d’oibríochtaí laethúla gnólachtaí. D’fhéadfadh go mbeadh cuid de na doiciméid seo ríthábhachtach in iarrachtaí eagraíochtúla éifeachtúlacht oibríochtúil a mhéadú agus costais a laghdú. 

Nuair a bheidh sé mar aidhm a chur i bhfeidhm cothabháil thuirbín gaoithe, tuairiscí ar mhainneachtain féadfaidh faisnéis chriticiúil faoi iompar comhpháirteanna éagsúla. Ach ós rud é go bhfuil noirm éagsúla bailithe sonraí ag monaróirí tuirbíní gaoithe éagsúla (ie go dtagann tuarascálacha cothabhála i bhformáidí éagsúla agus fiú i dteangacha éagsúla), d’fhéadfadh go n-éireodh costasach d’úinéir an ghléasra chun míreanna sonraí ábhartha a shainaithint de láimh. Is féidir le huirlisí NLP coincheapa, tréithe agus imeachtaí ábhartha a bhaint as ábhar neamhstruchtúrtha. Is féidir anailísíocht téacs a úsáid ansin chun comhghaolta agus patrúin a aimsiú i bhfoinsí éagsúla sonraí. Tugann sé seo deis d'úinéirí gléasra cothabháil thuarthach a chur i bhfeidhm bunaithe ar bhearta cainníochtúla a aithníodh ina dtuarascálacha teip.

Is féidir le samhlacha NLP comhéadain chuardaigh teanga nádúrtha a sholáthar

Ar an gcaoi chéanna, is gnách go gcaithfidh geo-eolaithe a oibríonn do chuideachtaí ola agus gáis athbhreithniú a dhéanamh ar go leor doiciméad a bhaineann le hoibríochtaí druileála san am atá caite, logaí tobair, agus sonraí seismeacha. Ós rud é go dtagann doiciméid den sórt sin i bhformáidí éagsúla freisin agus go scaiptear iad de ghnáth thar roinnt suíomhanna (idir fhisiciúil agus dhigiteach), cuireann siad go leor ama amú ag cuardach na faisnéise sna háiteanna míchearta. Réiteach inmharthana a bheadh ​​ann i gcás den sórt sin comhéadan cuardaigh faoi thiomáint NLP, rud a chuirfeadh ar chumas úsáideoirí sonraí a chuardach i dteanga nádúrtha. Ansin, d’fhéadfadh samhail NLP sonraí a chomhghaolú thar na céadta doiciméad agus sraith freagraí ar an gceist a sheoladh ar ais. Is féidir leis na hoibrithe ansin an t-aschur a bhailíochtú bunaithe ar a saineolas féin agus chuirfeadh an t-aiseolas tuilleadh feabhais ar an tsamhail. 

Mar sin féin, tá cúinsí teicniúla ann freisin maidir le samhlacha den sórt sin a úsáid. Gné amháin a bheadh ​​ann gur féidir le béarlagair a bhaineann go sonrach leis an tionscal mearbhall a chur ar shamhlacha foghlama traidisiúnta nach bhfuil an tuiscint shéimeantach chuí acu. Ar an dara dul síos, d'fhéadfadh tionchar a bheith ag méid an tacair sonraí oiliúna ar fheidhmíocht na samhlacha. Seo nuair is féidir le samhlacha réamhoilte mar BERT tairbheach. Is féidir le hionadaíochtaí comhthéacsúla brí na bhfocal cuí a shamhaltú agus fáil réidh le haon mhearbhall a eascraíonn as téarmaí a bhaineann go sonrach leis an tionscal. Trí úsáid a bhaint as samhlacha réamh-oilte, is féidir an líonra a oiliúint ar thacair sonraí níos lú. Sábhálann sé seo am, fuinneamh, agus acmhainní a bheadh ​​riachtanach murach sin le haghaidh oiliúna ón tús.

Cad faoi do ghnó féin? 

An féidir leat smaoineamh ar aon tascanna NLP a d'fhéadfadh cabhrú leat costais a laghdú agus éifeachtúlacht oibriúcháin a mhéadú?

An Gorm Oráiste Digiteach tá an fhoireann eolaíochta sonraí sásta BERT a athrú ar mhaithe leatsa freisin!

Is é Josh Miramant POF agus bunaitheoir Gorm Oráiste Digiteach, gníomhaireacht eolaíochta sonraí agus foghlama meaisín den scoth le hoifigí i gCathair Nua-Eabhrac agus i Washington DC. Is cainteoir móréilimh é Miramant, futurist, agus comhairleoir straitéiseach gnó & teicneolaíochta do chuideachtaí fiontair agus gnólachtaí nuathionscanta. Cabhraíonn sé le heagraíochtaí a ngnóthaí a bharrfheabhsú agus a uathoibriú, teicnící anailíse atá bunaithe ar shonraí a chur i bhfeidhm, agus tuiscint a fháil ar impleachtaí teicneolaíochtaí nua amhail hintleachta saorga, sonraí móra, agus Idirlíon na nEarraí.