Intel·ligència Artificial

Un sistema d'aprenentatge automàtic per reescriure un article mentre el llegeixes

actualitzat on Desembre 9, 2022

Una nova investigació del Canadà proposa un mètode per reescriure automàticament un article a mesura que el llegeixes, basat en el 'swiping' a l'estil Tinder, o en l'observació passiva de la interacció del lector amb els diferents tipus de contingut que conté l'article.

El sistema, titulat Hone As You Read (HARE), es presenta a a paper de la Western University d'Ontario, Canadà, amb el codi Python corresponent a GitHub.

La idea central del projecte és que un article pot contenir diversos tipus de contingut, evolucionant (com aquest) des del titular fins a més detalls. Les parts posteriors d'un article poden contenir diferents tipus de material de suport, casos d'ús o hipòtesis o conjectures sobre les ramificacions de la notícia.

Sota HARE, si no us agrada aquest tipus de material, podeu votar-lo descartant paràgraf per paràgraf mentre el sistema coneix les vostres preferències, de manera que quan us desplaceu cap avall, hi hagi contingut similar al material que "Votat en contra" ja s'ha eliminat o reescrit. Si no voleu participar activament en la formació del sistema, HARE pot deduir les vostres eleccions observant les vostres interaccions passives amb el document.

Votació a l'estil Tinder per a frases desagradables

A la imatge següent, veiem tres possibles tipus de categorització inferida per a HARE, en funció del comportament explícit o implícit de l'usuari. En el primer cas (a l'esquerra), l'usuari llisca activament cap a l'esquerra (o cap a la dreta), amb un gest de votació a l'estil Tinder que expressa aprovació o descontentament pel contingut del paràgraf o frase, o pel seu estil, complexitat o to.

Font: https://arxiv.org/pdf/2105.02923.pdf

En el segon cas (centre), el sistema utilitza el temps d'estada com a mètrica d'interès de l'usuari, basada en el posicionament i la durada de la pausa de desplaçament.

En el tercer cas (dreta), HARE està utilitzant la càmera del telèfon intel·ligent per estimar el camí i el temps d'estada de la ubicació de la mirada de l'espectador a través dels paràgrafs dels documents visibles.

Els investigadors afirmen que l'augment del temps d'espera en qualsevol paràgraf pot indicar un augment de l'interès de l'usuari, encara que lògicament aquest no és el cas quan l'espectador intenta assimilar un text que pot ser complicat o simplement escrit malament.

Els comentaris dels usuaris editen, reescriuen o esborran completament les parts de l'article que encara no s'han vist.

Preprocessament del contingut segons les preferències de l'usuari

El document tracta l'experiència d'usuari d'HARE per article, però clarament la interacció històrica de l'usuari amb els documents permet personalitzar les experiències de lectura futures, reconeixent constantment els tipus de contingut i aplicant les preferències de l'usuari amb plantilles als articles nous, de manera que la necessitat d'interacció disminueix a mesura que l'usuari veu cada cop menys contingut "no desitjat".

HARE es caracteritza com un algorisme de resum, que permet que el contingut no vist més avall de la pàgina es reescrigui en termes d'estil o concisió abans que l'usuari hi arribi; però el document deixa clar que també pot eliminar de manera preventiva contingut basat en els comentaris dels usuaris.

Amb finalitats de prova, el sistema va utilitzar a cos d'11,222 articles del Regne Unit Daily Mail diari, i es va avaluar mitjançant un desplegament de prova a l'aplicació de xat de Telegram. Els articles amb menys de deu paràgrafs es van descartar amb finalitats de prova.

L'aplicació Telegram HARE en fase de prova amb usuaris.

La metodologia dels investigadors utilitza K-Means agrupació on SBERT incrustacions de frases als articles, amb pesos inicialment aleatoris per als conceptes tractats.

Entre un ampli grup d'algorismes i enfocaments, HARE inclou tres models de comparació, el primer dels quals (ORACLEGREEDY) té accés a les preferències de l'usuari anteriors, cosa que indica la intenció que l'algoritme podria processar prèviament els articles en càrrega, en lloc de de manera interactiva.

Els altres models, ORACLESORTED i ORACLEUNIFORM, seleccionen frases en funció del nivell d'interès o aleatòriament al llarg de l'article, respectivament.

Eliminació i reescriptura de contingut

Sorprenentment, ORACLEUNIFORM va superar el conjunt de controls, tot i que no té accés als interessos previs dels usuaris. Els investigadors afirmen que això es deu al fet que tracta tot l'article d'un sol cop, "triant només les frases més interessants". Els investigadors admeten que això pot restringir el contingut disponible a aquelles frases que tracten únicament el concepte més important, eliminant lògicament altres textos que puguin tractar ramificacions o avaluació del concepte.

Els resums extractius utilitzats a HARE són LexRank, SumBasici TextRank.

HARE es va provar en 13 voluntaris al llarg de 70 assaigs i diferents enfocaments algorítmics, i va poder actualitzar resums (text reescrit/extirpat) entre 1.3 mil·lisegons i 100 ms en un ordinador portàtil de grau de consum, depenent del model que s'està provant. Els resultats van trobar que els models que van eliminar la majoria del text no van funcionar bé, principalment perquè això pot afectar la coherència del text restant.

Implicacions ètiques de la reescriptura dinàmica d'articles

Els investigadors reconeixen les preocupacions ètiques al voltant de tecnologies d'aquesta naturalesa:

'La tasca HARE està pensada per al disseny de futures aplicacions orientades als usuaris. Per disseny, aquestes aplicacions tenen la capacitat de controlar el que un usuari llegeix d'un article determinat. És possible que, quan es despleguen sense la cura suficient, aquestes eines puguin agreujar l'efecte "cambra d'eco" que ja produeixen els canals de notícies automatitzats, els resultats de la cerca i les comunitats en línia.'

Tanmateix, també assenyalen que aquest sistema es podria utilitzar en futures aplicacions per mitigar l'efecte de la cambra d'eco mitjançant la injecció de text que proposi punts de vista alternatius que potser no estaven presents inicialment a l'article. Observen: "La ponderació d'aquest factor es podria ajustar per oferir tant una experiència de lectura atractiva com l'exposició a una diversitat d'idees".

Els que probablement es beneficiaran d'aquest sistema, segons els investigadors, són lectors que volen estalviar temps a l'hora d'agafar informació i editors de contingut.

Temes relacionats:mitjans de comunicació processament del llenguatge natural nlp Xarxes Socials

Fins a la propera

Representació neuronal: fins a quin punt podeu baixar en termes d'entrada?

No et perdis

Google preveu un sistema de consultes semblant a GPT-3, sense resultats de cerca

Martin Anderson

Escriptor sobre aprenentatge automàtic, intel·ligència artificial i big data.
Lloc personal: martinanderson.ai
Poseu-vos en contacte amb: [protegit per correu electrònic]
Twitter: @manders_ai