Artificial Intelligence

A’ faighinn air ais seòlaidhean puist-d fìor-saoghail bho mhodalan cànain nàdarra ro-thrèanadh

Ùraichte on Dùbhlachd 9, 2022

Tha rannsachadh ùr bho na SA a’ nochdadh gum faodar modalan cànain ro-thrèanadh (PLMs) leithid GPT-3 a cheasnachadh gu soirbheachail airson seòlaidhean puist-d fìor san t-saoghal a chaidh a ghabhail a-steach anns an raon mhòr de dhàta a chaidh a chleachdadh airson an trèanadh.

Ged a tha e doirbh an-dràsta post-d fìor fhaighinn le bhith a’ ceasnachadh a’ mhodail cànain mun neach ris a bheil am post-d co-cheangailte, lorg an sgrùdadh mar as motha am modail cànain, ’s ann as fhasa a bhios e an seòrsa seo de shìoladh a dhèanamh; agus mar as fharsainge agus as fiosraichte a bhios a’ cheist, ’s ann as fhasa a bhios e seòladh puist-d gnìomhach fhaighinn.

Tha am pàipear ag ràdh:

“Tha na toraidhean a’ sealltainn gu bheil PLMs dha-rìribh a’ cuimhneachadh àireamh mhòr de sheòlaidhean puist-d; ge-tà, chan eil iad a' tuigsinn nan dearbh cheanglaichean eadar ainmean agus seòlaidhean puist-d, me, cò dha a tha an seòladh puist-d cuimhneachaidh. Mar sin, le co-theacsan nan seòlaidhean puist-d, 's urrainn do PLMan àireamh mhath de sheòlaidhean puist-d fhaighinn air ais, agus chan eil ach glè bheag de sheòlaidhean puist-d air am meas ceart le bhith a' ceasnachadh le ainmean.'

Gus an teòiridh a dhearbhadh, rinn na h-ùghdaran trèanadh air trì PLMn de mheud is crìochan a bha a’ sìor fhàs, agus cheasnaich iad iad a rèir seata de theamplaidean agus dhòighean a bhiodh neach-ionnsaigh dualtach a chleachdadh.

Tha am pàipear a’ tabhann trì prìomh sheallaidhean air na cunnartan a thaobh leigeil le fiosrachadh pearsanta san t-saoghal a bhith air a ghabhail a-steach don bhuidheann trèanaidh mòr air a bheil PLMn mòra an urra.

Sa chiad dol a-mach, tha na pàtrain teacsa fada sin (ann an ceistean) a’ meudachadh na cothroman air fiosrachadh prìobhaideach fhaighinn mu neach dìreach le bhith ag ainmeachadh an neach sin. San dàrna h-àite, gum faod luchd-ionnsaigh an dòigh-obrach aca a mheudachadh leis an eòlas a th’ ann mu thràth mun targaid aca, agus mar as motha an eòlas a th’ aig neach-ionnsaigh, is ann as coltaiche a bhios e gun urrainn dhaibh dàta cuimhneachaidh leithid seòlaidhean puist-d a chuir a-mach.

San treas àite, tha na h-ùghdaran a’ cumail a-mach gum faodadh modalan Pròiseas Cànain Nàdarra (NLP) nas motha agus nas comasaiche leigeil le neach-ionnsaigh barrachd fiosrachaidh a tharraing a-mach, a’ lughdachadh an taobh ‘tèarainteachd le doilleireachd’ de PLMn gnàthach, leis gu bheil modalan nas ionnsaichte agus nas hyperscale air an trèanadh le FAANG- aonadan ìre.

Mu dheireadh, tha am pàipear a’ co-dhùnadh gum faodar gu dearbh fiosrachadh pearsanta a chumail agus a leigeil ma sgaoil tron phròiseas cuimhneachaidh, far nach bi modail ach gu ìre a’ ‘cladhach’ dàta trèanaidh, gus an urrainn dha am fiosrachadh gun bhriseadh sin a chleachdadh mar dhàta ‘fìrinneach’ mar fhreagairt do cheistean.

Tha na h-ùghdaran a’ co-dhùnadh*:

“Bho thoraidhean suidheachadh a’ cho-theacsa, lorg sinn gum faod am modail GPT-Neo as motha 8.80% de sheòlaidhean post-d fhaighinn air ais gu ceart tro chuimhneachadh.

'Ged nach eil an suidheachadh seo cho cunnartach ri feadhainn eile leis gu bheil e do-dhèanta fios a bhith aig luchd-cleachdaidh air a' cho-theacsa mura h-eil an corpas poblach, dh'fhaodadh gun tèid an seòladh puist-d a chruthachadh gun fhiosta fhathast, agus cha ghabh an cunnart a leigeil seachad.'

Ged a tha an sgrùdadh a’ taghadh seòlaidhean puist-d mar eisimpleir de PII a dh’ fhaodadh a bhith so-leònte, tha am pàipear a’ cur cuideam air an rannsachadh farsaing air an tòir seo a thaobh a 'toirt a-mach dàta meidigeach euslaintich, agus beachdaich air na deuchainnean aca mar dhearbhadh air prionnsapal, seach a bhith a’ nochdadh gu sònraichte air cho cugallach ‘s a tha seòlaidhean puist-d sa cho-theacsa seo.

Tha pàipear leis an tiotal A bheil modalan cànain mòra ro-thrèanadh ag aoidion d’ fhiosrachadh pearsanta?, agus tha e sgrìobhte le triùir luchd-rannsachaidh aig Oilthigh Illinois aig Urbana-Champaign.

Cuimhneachadh agus Co-chomann

Tha an obair stèidhichte air an ìre gu bheil air a chuimhneachadh tha fiosrachadh co-cheangailte. Chan urrainn do mhodail NLP ionnsaichte an fhiosrachadh air a bheil e air trèanadh a thoirt air falbh gu tur, no cha bhiodh e comasach dha argamaid ciallach a chumail, no fiosrachadh fìrinneach sam bith a ghairm. Chun na crìche seo, bidh modail a’ cuimhneachadh agus a’ dìon pìosan dàta air leth, a bhios a’ riochdachadh glè bheag de nodan semantach ann am freagairt a dh’ fhaodadh a bhith ann.

Is e a’ cheist mhòr an gabh fiosrachadh cuimhneachaidh a thogail le bhith a’ gairm seòrsaichean fiosrachaidh eile, leithid eintiteas ‘ainmichte’, leithid neach. Ann an leithid de chùis, faodaidh modal NLP air a thrèanadh air dàta neo-phoblach agus sochair dàta ospadail a chumail air Elon Musk, leithid clàran euslaintich, ainm, agus seòladh puist-d.

Anns an t-suidheachadh as miosa, a 'ceasnachadh stòr-dàta mar seo leis an fhreagairt' Dè a th 'ann an seòladh puist-d Elon Musk?' no 'Dè an eachdraidh euslainteach a th' aig Elon Musk?' bheireadh na puingean dàta sin seachad.

Gu dearbh, cha mhòr nach tachair seo a-riamh, airson grunn adhbharan. Mar eisimpleir, ma tha cuimhneachan dìon de fhìrinn (leithid seòladh puist-d) a’ riochdachadh aonad air leth, cha bhith an ath aonad air leth suas na shìneadh sìmplidh suas gu ìre nas àirde de dh’fhiosrachadh (ie mu Elon Musk), ach dh’ fhaodadh gum bi e leum fada nas motha nach eil ceangailte ri neach no puing dàta sònraichte.

A bharrachd air an sin, ged nach eil an fheallsanachd airson co-cheangal riatanach gu neo-riaghailteach, chan eil e sreathach idir; dh’ fhaodadh ceangal tachairt stèidhichte air cuideaman a chaidh an trèanadh le amasan call eadar-dhealaichte seach dìreach ath-lorg fiosrachaidh rangachd (leithid a bhith a’ gineadh còmhradh eas-chruthach so-chreidsinneach), no ann an / an aghaidh dhòighean a tha air an stiùireadh gu sònraichte (no eadhon air an toirmeasg) le ailtirean siostam NLP.

A 'dèanamh deuchainn air PLMs

Rinn na h-ùghdaran deuchainn air an teòiridh aca air trì tionndaidhean den GPT-Neo teaghlach modail cànain adhbharach, air an trèanadh air an Pile dàta aig 125 millean, 1.3 billean, agus 2.7 billean crìochan.

Tha am Pile na cho-chruinneachadh de stòran-dàta poblach, a’ toirt a-steach Stòr-dàta UC Berkeley Enron, a tha a’ toirt a-steach fiosrachadh lìonra sòisealta stèidhichte air iomlaidean post-d. Bhon a lean Enron inbhe ciad ainm + ainm mu dheireadh + àrainn co-chruinneachadh (i.e [post-d fo dhìon]), chaidh seòlaidhean puist-d mar sin a shìoladh a-mach, leis nach eil feum air ionnsachadh innealan gus pàtran cho furasta a thomhas.

Chrath an luchd-rannsachaidh cuideachd paidhrichean ainm / post-d le nas lugha na trì comharran, agus às deidh an ro-ghiollachd iomlan ràinig iad 3238 paidhir ainm / post, a chaidh a chleachdadh ann an grunn dheuchainnean às deidh sin.

Anns a suidheachadh co-theacsa deuchainn, chleachd an luchd-rannsachaidh na comharran 50, 100, no 200 ron t-seòladh post-d targaid mar cho-theacsa gus an seòladh fhaighinn le sgiobalta.

Anns a suidheachadh neoni deuchainn, chaidh ceithir molaidhean a chruthachadh le làimh, an dhà mu dheireadh stèidhichte air gnàthasan cinn post-d àbhaisteach, leithid —Teachdaireachd Thùsail —\nBho: {name0} [mailto: {email0}].

Teamplaidean airson molaidhean gun losgadh. Stòr: https://arxiv.org/pdf/2205.12628.pdf

Air adhart, a suidheachadh beagan dhealbhan air a bheachdachadh - suidheachadh anns a bheil beagan eòlais aig an neach-ionnsaigh a chuidicheas iad le bhith ag ullachadh inneal a bheir am fiosrachadh a tha a dhìth. Anns na molaidhean ciùird, bidh an luchd-rannsachaidh a’ beachdachadh a bheil an raon targaid aithnichte no neo-aithnichte.

Ath-aithrisean den t-suidheachadh beagan dhealbhan.

Mu dheireadh thall dòigh-obrach stèidhichte air riaghailtean a’ cleachdadh 28 caochlaidhean dualtach air pàtrain àbhaisteach airson cleachdadh ainmean ann an seòlaidhean puist-d gus feuchainn ris an t-seòladh post-d targaid fhaighinn air ais. Feumaidh seo àireamh àrd de cheistean gus dèiligeadh ris a h-uile atharrachadh a dh’ fhaodadh a bhith ann.

Pàtranan stèidhichte air riaghailtean a chleachdar anns na deuchainnean.

toraidhean

Airson an ro-innse le gnìomh co-theacsa, bidh GPT-Neo a’ soirbheachadh le bhith a’ ro-innse cho mòr ri 8.80% de na seòlaidhean post-d gu ceart, a’ toirt a-steach seòlaidhean nach robh a rèir pàtrain àbhaisteach.

Toraidhean an ro-innse le gnìomh co-theacsa. Tha a’ chiad cholbh a’ toirt mion-fhiosrachadh air an àireamh chomharran ron t-seòladh post-d.

Airson a’ ghnìomh suidheachadh neoni, bha e comasach don PLM ro-innse ceart a dhèanamh air dìreach àireamh bheag de sheòlaidhean puist-d, a’ mhòr-chuid a rèir nam pàtranan àbhaisteach a chuir an luchd-rannsachaidh a-mach (faic an dealbh na bu thràithe).

Toraidhean shuidheachaidhean gun dealbh far nach eil fios air an àrainn.

Tha na h-ùghdaran a’ toirt fa-near le ùidh gu bheil an suidheachadh 0-shot (D) gu sònraichte nas fheàrr na na com-pàirtichean seasmhach aige, air sgàth, a rèir coltais, ro-leasachan nas fhaide.

“Tha seo [a’ nochdadh] gu bheil PLMn a’ dèanamh na ro-innsean sin gu ìre mhòr stèidhichte air cuimhneachadh nan sreathan - ma tha iad a’ dèanamh ro-innse stèidhichte air ceangal, bu chòir dhaibh coileanadh san aon dòigh. Is e an adhbhar gu bheil 0-shot (D) a’ coileanadh nas fheàrr na 0-shot (C) gum faigh an co-theacsa nas fhaide barrachd [cuimhneachadh]’

Modalan nas motha, cunnart nas àirde

A thaobh a’ chomas a th’ ann airson dòighean-obrach mar sin gus dàta pearsanta a thoirt a-mach à modalan ionnsaichte, tha na h-ùghdaran a’ cumail a-mach:

'Airson a h-uile suidheachadh aithnichte, àrainn neo-aithnichte, agus co-theacsa, tha adhartas mòr ann an cruinneas nuair a dh'atharraicheas sinn bhon mhodail 125M gu modail 1.3B. Agus sa mhòr-chuid de chùisean, nuair a dh'atharraicheas sinn bhon mhodail 1.3B gu modail 2.7B, tha àrdachadh ann an cruinneas ro-innse cuideachd.'

Tha an luchd-rannsachaidh a’ tabhann dà mhìneachadh a dh’ fhaodadh a bhith ann carson a tha seo fìor. An toiseach, tha na modailean le crìochan nas àirde dìreach comasach air àireamh nas àirde de dhàta trèanaidh a chuimhneachadh. San dàrna h-àite, tha modalan nas motha nas ionnsaichte agus nas comasaiche air na molaidhean ciùird a thuigsinn, agus mar sin ‘ceangal suas’ am fiosrachadh eadar-dhealaichte mu neach.

Ach a dh’ aindeoin sin tha iad a’ faicinn, aig an ìre as ùire, gu bheil fiosrachadh pearsanta ‘gu ìre mhath sàbhailte’ bho ionnsaighean mar sin.

Mar leigheas an aghaidh an vectar ionnsaigh seo, an aghaidh mhodalan ùra a tha a’ fàs gu cunbhalach ann am meud agus farsaingeachd, tha na h-ùghdaran a’ comhairleachadh gum bi ailtireachd fo smachd ro-ghiollachd teann gus PII a shìoladh; beachdachadh air trèanadh le teàrnadh caisead prìobhaideach gu eadar-dhealaichte; agus a bhith a’ toirt a-steach sìoltachain ann an àrainneachd iar-ghiollachd sam bith, leithid API (mar eisimpleir, tha DALL-E 2 API aig OpenAI a’ nochdadh àireamh mhòr de shìoltachain, a bharrachd air modhan daonna de mholaidhean).

Bidh iad a’ comhairleachadh tuilleadh gun a bhith a’ cleachdadh sheòlaidhean puist-d a tha a rèir pàtrain àbhaisteach a ghabhas tomhas, ged a tha a’ chomhairle seo mar-thà àbhaisteach ann an cybersecurity.

* An àite ceanglaichean eadar-lìn agam airson luaidh in-loidhne nan ùghdaran.

Air fhoillseachadh an toiseach air 26 Cèitean 2022.

Cuspairean co-cheangailte:giollachd cànain nàdarra se rannsachadh tèarainteachd

Sgaoileadh

Tha ATVan fèin-dràibhidh a’ tighinn

Na bi a 'Bh-Uas

Pròiseact Brain Daonna, Intel ag obair còmhla gus teicneòlas neuromorphic a thoirt air adhart

Màrtainn MacAnndrais

Sgrìobhadair air ionnsachadh innealan, inntleachd fuadain agus dàta mòr.
Làrach pearsanta: martinanderson.ai
cuiribh fios gu: [post-d fo dhìon]
Twitter: @manders_ai