Mākslīgais intelekts

Mašīnmācīšanās sistēma, lai pārrakstītu rakstu, kamēr to lasāt

Atjaunināts on Decembris 9, 2022

Jauns pētījums no Kanādas piedāvā metodi, kā automātiski pārrakstīt rakstu tā lasīšanas laikā, pamatojoties uz Tinder stila "vilkšanu" vai pasīvu novērošanu par lasītāja mijiedarbību ar dažāda veida saturu, kas ietverts rakstā.

Sistēma ar nosaukumu Hone As You Read (HARE) ir parādīta a papīrs no Rietumu universitātes Ontario, Kanādā, ar atbilstošu Python kodu vietnē GitHub.

Projekta galvenā ideja ir tāda, ka rakstā var būt dažāda veida saturs, kas attīstās (līdzīgi šim) no virsraksta līdz sīkākai informācijai. Vēlākās raksta daļās var būt dažāda veida palīgmateriāli, lietošanas gadījumi vai hipotēzes vai minējumi par ziņu sekām.

Sadaļā HARE, ja jums nepatīk šāda veida materiāls, varat to atteikt pa rindkopām, kamēr sistēma uzzina jūsu preferences, lai līdz brīdim, kad ritināsit uz leju, saturs būtu līdzīgs jūsu izvēlētajam materiālam. 'negatīvi nobalsots' jau ir noņemts vai pārrakstīts. Ja nevēlaties aktīvi piedalīties sistēmas apmācībā, HARE var secināt par jūsu izvēli, novērojot jūsu pasīvo mijiedarbību ar dokumentu.

Tinder stila balsošana par nepatīkamiem teikumiem

Tālāk esošajā attēlā redzami trīs iespējamie HARE izsecināto kategoriju veidi, pamatojoties uz lietotāja tiešu vai netiešu uzvedību. Pirmajā gadījumā (pa kreisi) lietotājs aktīvi velk pa kreisi (vai pa labi), izmantojot Tinder stila balsošanas žestu, paužot piekrišanu vai nepatiku pret rindkopas vai teikuma saturu vai tā stilu, sarežģītību vai toni.

Avots: https://arxiv.org/pdf/2105.02923.pdf

Otrajā gadījumā (centrā) sistēma izmanto aiztures laiku kā lietotāja interešu metriku, pamatojoties uz novietojumu un ritināšanas pauzes ilgumu.

Trešajā gadījumā (pa labi) HARE izmanto viedtālruņa kameru, lai novērtētu skatītāja skatiena atrašanās vietas ceļu un aiztures laiku redzamo dokumentu rindkopās.

Pētnieki apgalvo, ka palielināts aiztures laiks jebkurā rindkopā var norādīt uz palielinātu lietotāju interesi, lai gan loģiski, ka tas tā var nebūt, ja skatītājs mēģina asimilēt tekstu, kas var būt sarežģīts vai vienkārši slikti uzrakstīts.

Lietotāju atsauksmes efektīvi rediģē, pārraksta vai pilnībā izdzēš vēl neredzamās raksta daļas.

Satura iepriekšēja apstrāde pēc lietotāja vēlmēm

Rakstā aplūkota HARE lietotāja pieredze katram rakstam, taču nepārprotami lietotāja vēsturiskā mijiedarbība ar dokumentiem ļauj pielāgot turpmāko lasīšanas pieredzi, konsekventi atpazīstot satura veidus un piemērojot veidnes lietotāju preferences jauniem rakstiem, lai mijiedarbības nepieciešamība samazinās, jo lietotājs redz arvien mazāk “nevēlamu” saturu.

HARE tiek raksturots kā apkopošanas algoritms, kas ļauj pārrakstīt neredzētu saturu, kas atrodas tālāk lapā, stila vai precizitātes izteiksmē, pirms lietotājs to nokļūst; taču dokumentā ir skaidri norādīts, ka tas var arī preventīvi noņemt saturu, pamatojoties uz lietotāju atsauksmēm.

Testēšanas nolūkos sistēma izmantoja a korpusu no 11,222 XNUMX rakstiem no Apvienotās Karalistes Daily Mail laikraksts, un tas tika novērtēts, izmantojot testa izvietošanu Telegram tērzēšanas lietotnē. Izmēģinājuma nolūkos tika izmesti raksti, kuros ir mazāk par desmit rindkopām.

Telegram HARE lietotne testēšanas fāzē ar lietotājiem.

Pētnieku metodoloģija izmanto K-Means klasterizācija on SBERTS teikumu iegulšanas rakstos, sākotnēji ar nejaušiem svariem aplūkotajiem jēdzieniem.

No plašas algoritmu un pieeju grupas HARE piedāvā trīs salīdzināšanas modeļus, no kuriem pirmais (ORACLEGREEDY) var piekļūt iepriekšējām lietotāja preferencēm, norādot, ka algoritms varētu iepriekš apstrādāt rakstus slodzes laikā, nevis interaktīvi.

Citi modeļi, ORACLESORTED un ORACLEUNIFORM, atlasa teikumus, pamatojoties uz interešu līmeni, vai nejauši visā rakstā.

Satura noņemšana un pārrakstīšana

Pārsteidzoši, ORACLEUNIFORM pārspēja vadības komplektu, lai gan tai nav piekļuves iepriekšējām lietotāju interesēm. Pētnieki apgalvo, ka tas ir tāpēc, ka tajā ir aplūkots viss raksts vienā piegājienā, “izvēloties tikai interesantākos teikumus”. Pētnieki atzīst, ka tas var ierobežot pieejamo saturu līdz tiem teikumiem, kas attiecas tikai uz vissvarīgāko jēdzienu, loģiski noņemot citu tekstu, kas var būt saistīts ar jēdziena atzariem vai novērtējumu.

HARE izmantotie ekstrakcijas apkopotāji ir LexRank, SumBasic, un TextRank.

HARE tika pārbaudīts ar 13 brīvprātīgajiem 70 izmēģinājumu un dažādu algoritmisku pieeju laikā, un tas varēja atjaunināt kopsavilkumus (pārrakstīts/izgriezts teksts) no 1.3 milisekundēm līdz 100 ms patērētāju klases klēpjdatorā atkarībā no izmēģināmā modeļa. Rezultāti atklāja, ka modeļi, kas noņēma lielāko daļu teksta, nedarbojās labi, galvenokārt tāpēc, ka tas var ietekmēt atlikušā teksta saskaņotību.

Dinamiskās rakstu pārrakstīšanas ētiskās sekas

Pētnieki atzīst ētiskas bažas par šāda veida tehnoloģijām:

"HARE uzdevums ir paredzēts nākotnes lietotāju lietojumprogrammu izstrādei. Pēc konstrukcijas šīm lietojumprogrammām ir iespēja kontrolēt, ko lietotājs lasa no konkrētā raksta. Iespējams, ka, izvietojot šos rīkus bez pietiekamas aprūpes, tie var saasināt “atbalss kameras” efektu, ko jau rada automatizētās ziņu plūsmas, meklēšanas rezultāti un tiešsaistes kopienas.

Tomēr viņi arī atzīmē, ka šādu sistēmu varētu izmantot turpmākajās lietojumprogrammās, lai mazinātu atbalss kameras efektu, ievadot tekstu, kas piedāvā alternatīvus viedokļus, kas, iespējams, sākotnēji nebija ietverti rakstā. Viņi atzīmē: "Šī faktora svaru varētu pielāgot, lai nodrošinātu gan aizraujošu lasīšanas pieredzi, gan dažādu ideju pakļaušanu."

Tie, kas, pēc pētnieku domām, varētu gūt labumu no šādas sistēmas, ir lasītāji, kuri vēlas ietaupīt laiku informācijas iegūšanai, un satura izdevēji.

Nākošais

Neironu renderēšana: cik zemu jūs varat sasniegt ievades ziņā?

Nepalaidiet garām

Google paredz GPT-3 līdzīgu vaicājumu sistēmu bez meklēšanas rezultātiem

Mārtiņš Andersons

Rakstnieks par mašīnmācību, mākslīgo intelektu un lielajiem datiem.
Personīgā vietne: Martinanderson.ai
Sazinieties ar: [e-pasts aizsargāts]
Twitter: @manders_ai