Faisnéise Saorga
Cosc ar 'Síothchaint' i GPT-3 agus Múnlaí Coimpléascacha Teangacha Eile

Tréith shainiúil den ‘nuacht bhréige’ is ea go gcuireann sé faisnéis bhréagach i láthair go minic i gcomhthéacs faisnéise atá ceart go fíorasach, leis na sonraí bréagacha ag fáil údarás braite trí chineál osmóis liteartha – léiriú imníoch ar chumhacht na leathfhírinní.
Tá claonadh ag samhlacha próiseála teanga nádúrtha giniúna sofaisticiúla (NLP) mar GPT-3 freisin 'hallucinate' den chineál seo sonraí deceptive. Go páirteach, is é is cúis leis seo ná go n-éilíonn samhlacha teanga an cumas chun sleachta fada agus go minic labyrinthine de théacs a athfhrású agus a achoimriú, gan aon srian ailtireachta atá in ann imeachtaí agus fíricí a shainiú, a iniamh agus a ‘shéalú’ ionas go gcosnaítear iad ón bpróiseas séimeantach. atógáil.
Mar sin níl na fíricí naofa do shamhail NLP; Is furasta iad a láimhseáil go héasca i gcomhthéacs ‘brící shéimeantacha Lego’, go háirithe nuair a bhíonn sé deacair aonáin scoite a dheighilt ó struchtúr na teanga ó thaobh gramadaí casta nó bunábhar stuama.

Breathnú ar an gcaoi a bhféadann bunábhar a chuirtear in iúl go cráite samhlacha casta teanga a mheas mar GPT-3. Foinse: Athinsint Giniúint Ag Úsáid Foghlama Neartaithe Dhomhain
Eascraíonn an fhadhb seo ó mheaisínfhoghlaim téacsbhunaithe go taighde fís ríomhaire, go háirithe in earnálacha a bhaineann úsáid as leithcheal shéimeantach chun rudaí a aithint nó cur síos a dhéanamh orthu.

Bíonn tionchar ag siabhránacht agus athléirmhíniú 'cosmaideach' míchruinn ar thaighde fís ríomhaire freisin.
I gcás GPT-3, féadann an tsamhail éirí frustrachas le ceistiú arís agus arís eile ar thopaic ar thug sé aghaidh chomh maith agus is féidir. Sa chás is fearr, beidh sé a admháil defeat:

Turgnamh le déanaí de mo chuid leis an inneall Davinci bunúsach i GPT-3. Faigheann an tsamhail an freagra ceart ar an gcéad iarracht, ach cuirtear an-chrón air nuair a chuirtear an cheist an dara huair. Ós rud é go gcoimeádann sé cuimhne ghearrthéarmach ar an bhfreagra roimhe seo, agus go gcaitheann sé leis an gceist arís agus arís eile mar dhiúltú don fhreagra sin, géilleann sé an bua. Foinse: https://www.scalr.ai/post/business-applications-for-gpt-3
Déanann DaVinci agus DaVinci Instruct (Beta) níos fearr maidir leis seo ná samhlacha GPT-3 eile atá ar fáil tríd an API. Anseo, tugann an tsamhail Curie an freagra mícheart, agus leathnaíonn an tsamhail Babbage go muiníneach ar fhreagra atá chomh mícheart:
Rudaí Riamh Dúirt Einstein
Agus an t-inneall GPT-3 DaVinci Instruct á lorg (is cosúil gurb é an ceann is cumasaí faoi láthair) le haghaidh luachan cáiliúil Einstein 'Ní imríonn Dia dísle leis an gcruinne', teipeann ar threoir DaVinci an luachan a aimsiú agus déanann sé neamh-quote a chumadh, ag dul ar aghaidh. trí shleachta eile atá sách sochreidte agus nach bhfuil ar fáil go hiomlán (le Einstein nó ó dhuine ar bith) a chur in iúl mar fhreagra ar cheisteanna comhchosúla:

Táirgeann GPT-3 ceithre Sleachta sochreidte ó Einstein, agus ní thugann aon cheann acu aon toradh ar bith i gcuardach idirlín lántéacs, cé go spreagann roinnt comharthaí athfhriotail (fíor) eile ó Einstein ar an ábhar 'samhlaíochta'.
Dá mbeadh GPT-3 mícheart go seasta maidir le lua, bheadh sé níos éasca na siabhránachtaí sin a lascainiú go cláir. Mar sin féin, dá bhrí sin is idirleata agus is cáiliúla an ceanglófar, is é is dóichí go bhfaighidh GPT-3 an luachan ceart:

Is cosúil go bhfaighidh GPT-3 comharthaí athfhriotail cearta nuair a bhíonn siad léirithe go maith sna sonraí rannchuidithe.
Is féidir fadhb eile a theacht chun cinn nuair a fhuileann sonraí staire seisiúin GPT-3 isteach i gceist nua:
Is dócha go gcuirfí scannal ar Einstein an focal seo a chur ina leith. Dealraíonn sé gur bréagchleachtadh nonsensical de Winston Churchill fíor-shaoil atá sa luachan aphorism. Bhain an cheist roimhe seo sa seisiún GPT-3 le Churchill (ní Einstein), agus is cosúil gur bhain GPT-3 úsáid as an chomhartha seisiúin seo trí dhearmad chun an freagra a chur in iúl.
Dul i nGleic le Siamsaíocht go hEacnamúil
Is bac suntasach é siabhránacht ar shamhlacha sofaisticiúla NLP a ghlacadh mar uirlisí taighde – is amhlaidh is mó a dhéantar an t-aschur ó innill dá leithéid a asbhaint go mór ón mbunábhar a chruthaigh é, ionas go mbeidh fadhbanna ag baint le fírinneacht na Sleachta agus na bhfíoras a bhunú.
Mar sin dúshlán taighde ginearálta amháin in NLP is ea modh a bhunú chun téacsanna bréagchéadfaíocha a aithint gan gá le samhlacha iomlána nua NLP a shamhlú a ionchorpraíonn, a shainíonn agus a fhíordheimhníonn fíricí mar eintitis scoite (sprioc ar leith níos fadtéarmaí i roinnt ríomhaire níos leithne. earnálacha taighde).
Ábhar Siamsaíochta a Aithint agus a Ghiniúint
A nua comhoibriú idir Ollscoil Carnegie Mellon agus Facebook Cuireann AI Research cur chuige nua ar fáil i leith na faidhbe siabhránachta, trí mhodh a cheapadh chun aschur bréagchéadfaíochta a shainaithint agus trí úsáid a bhaint as téacsanna siabhránacha sintéiseacha chun tacar sonraí a chruthú a fhéadfar a úsáid mar bhonnlíne do scagairí agus do mheicníochtaí amach anseo a d’fhéadfadh a bheith ina dhiaidh sin. cuid lárnach d'ailtireacht NLP.

Foinse: https://arxiv.org/pdf/2011.02593.pdf
San íomhá thuas, tá bunábhar deighilte ar bhonn in aghaidh an fhocail, leis an lipéad '0' tugtha do na focail chearta agus an lipéad '1' tugtha do na focail siabhránacha. Anseo thíos feicimid sampla d’aschur bréagchéadfainneach a bhaineann leis an bhfaisnéis ionchuir, ach a chuirtear le sonraí neamhfhíorántúla.
Úsáideann an córas uath-ionchódóir denoising réamh-oilte atá in ann teaghrán bréagchéadfaíochta a mhapáil ar ais go dtí an buntéacs ónar táirgeadh an leagan truaillithe (cosúil leis na samplaí atá agam thuas, nuair a nocht cuardaigh idirlín bunáit sleachta bréagacha, ach le clár agus modheolaíocht shéimeantach uathoibrithe). Go sonrach, Facebook's BART úsáidtear múnla uath-ionchódóra chun na habairtí truaillithe a tháirgeadh.

Sannadh lipéad.
Leis an bpróiseas chun an bréagchleachtadh a mhapáil ar ais go dtí an fhoinse, rud nach féidir i gcomhréim na samhlacha NLP ardleibhéil, is féidir an 'achar eagarthóireachta' a mhapáil, agus éascaíonn sé cur chuige algartamach maidir le hábhar bréagchéadfaíochta a shainaithint.
Fuair na taighdeoirí amach go bhfuil an córas in ann ginearálú go maith fiú nuair nach bhfuil aon rochtain aige ar ábhar tagartha a bhí ar fáil le linn na hoiliúna, rud a thugann le tuiscint go bhfuil an tsamhail choincheapúil fónta agus in-athdhéanta go ginearálta.
Dul i nGleic le Rófheisteas
D'fhonn rófheisteas a sheachaint agus teacht ar ailtireacht atá in-imscartha go forleathan, scaoil na taighdeoirí comharthaí ón bpróiseas go randamach, agus d'úsáid siad athinsint agus feidhmeanna torainn eile.
Tá aistriúchán meaisín (MT) mar chuid den phróiseas folaithe seo freisin, ós rud é gur dócha go gcaomhnófar an bhrí go láidir le téacs a aistriú thar theangacha agus go seachnófar an ró-fheistiú. Mar sin d’aistrigh agus d’aithin cainteoirí dátheangacha siabhránachtaí don tionscadal i sraith nótaí láimhe.
Bhain an tionscnamh torthaí is fearr amach i roinnt tástálacha caighdeánacha earnála, agus is é an chéad cheann a bhain torthaí inghlactha amach ag baint úsáide as sonraí ar mó é ná 10 milliún comhartha.
An cód le haghaidh an tionscadail, dar teideal Ábhar Siamsaíochta a Bhrath i nGiniúint Seicheamh Néarach Coinníollach, Tá scaoileadh ar GitHub, agus ligeann sé d'úsáideoirí a gcuid sonraí sintéiseacha féin a ghiniúint le BART ó chorpas téacs ar bith. Déantar foráil freisin don ghlúin ina dhiaidh sin de shamhlacha braite siabhránachtaí.