Angolo di Anderson

Un Sistema di Apprendimento Automatico per Riscrivere un Articolo Mentre lo Leggi

mm

Una nuova ricerca condotta in Canada propone un metodo per riscrivere automaticamente un articolo mentre lo si legge, basato su un sistema di “swiping” simile a Tinder, o sull’osservazione passiva dell’interazione dell’utente con i vari tipi di contenuto presenti nell’articolo.

Il sistema, intitolato Hone As You Read (HARE), è presentato in un documento dell’Università occidentale dell’Ontario, in Canada, con il codice Python corrispondente su GitHub.

L’idea centrale del progetto è che un articolo possa contenere vari tipi di contenuto, che evolvono (come questo) dall’intestazione ai dettagli successivi. Le parti successive di un articolo possono contenere materiali di supporto diversi, casi d’uso o ipotesi o congetture sulle ramificazioni della notizia.

Sotto HARE, se non si desidera quel tipo di materiale, è possibile votarlo via su base paragrafo per paragrafo mentre il sistema apprende le proprie preferenze, in modo che, quando si scorre verso il basso, il contenuto simile al materiale che si è “downvotato” sia già stato rimosso o riscritto. Se non si desidera partecipare attivamente all’addestramento del sistema, HARE può dedurre le proprie scelte osservando le interazioni passive con il documento.

Voto in Stile Tinder per Frasi Sgradite

Nell’immagine seguente, vediamo tre possibili tipi di categorizzazione inferita per HARE, basata sul comportamento esplicito o implicito dell’utente. Nel primo caso (a sinistra), l’utente attiva un gesto di “swiping a sinistra” (o a destra), in uno stile di voto Tinder, esprimendo approvazione o disapprovazione per il contenuto del paragrafo o della frase, o per il suo stile, complessità o tono.

Fonte: https://arxiv.org/pdf/2105.02923.pdf

Fonte: https://arxiv.org/pdf/2105.02923.pdf

Nel secondo caso (al centro), il sistema utilizza il tempo di permanenza come metrica dell’interesse dell’utente, in base alla posizione e alla durata della pausa di scorrimento.

Nel terzo caso (a destra), HARE utilizza la fotocamera dello smartphone per stimare il percorso e il tempo di permanenza della posizione dello sguardo dell’utente attraverso i paragrafi del documento visibile.

I ricercatori sostengono che un tempo di permanenza maggiore su un paragrafo può indicare un maggiore interesse dell’utente, anche se logicamente ciò potrebbe non essere il caso in cui l’utente sta cercando di assimilare testo che potrebbe essere complicato o semplicemente scritto male.

Il feedback dell'utente modifica efficacemente, riscrive o cancella completamente porzioni dell'articolo ancora non viste.

Il feedback dell’utente modifica efficacemente, riscrive o cancella completamente porzioni dell’articolo ancora non viste.

Pre-elaborazione del Contenuto in Base alle Preferenze dell’Utente

Il documento tratta l’esperienza dell’utente con HARE su base per articolo, ma è chiaro che l’interazione storica dell’utente con i documenti consente la personalizzazione delle future esperienze di lettura, riconoscendo costantemente tipi di contenuto e applicando preferenze dell’utente template a nuovi articoli, in modo che la necessità di interazione diminuisca man mano che l’utente vede meno e meno “contenuto indesiderato”.

HARE è caratterizzato come un algoritmo di riassunto, che consente di riscrivere il contenuto non ancora visto più in basso nella pagina in termini di stile o concisione prima che l’utente arrivi a esso; ma il documento rende chiaro che può anche rimuovere preventivamente il contenuto in base al feedback dell’utente.

Per scopi di test, il sistema ha utilizzato un corpus di 11.222 articoli del quotidiano Daily Mail del Regno Unito, e è stato valutato tramite una prova su l’app di chat Telegram. Gli articoli con meno di dieci paragrafi sono stati scartati per scopi di prova.

L'app HARE di Telegram in una fase di test con gli utenti.

L’app HARE di Telegram in una fase di test con gli utenti.

I ricercatori utilizzano il clustering K-Means su SBERT per le incapsulazioni delle frasi negli articoli, con pesi inizialmente casuali per i concetti trattati.

Tra un ampio gruppo di algoritmi e approcci, HARE presenta tre modelli di confronto, il primo dei quali (ORACLEGREEDY) ha accesso alle preferenze dell’utente precedenti, indicando l’intento che l’algoritmo potrebbe pre-elaborare gli articoli al caricamento, piuttosto che interattivamente.

Gli altri modelli, ORACLESORTED e ORACLEUNIFORM, selezionano le frasi in base al livello di interesse o in modo casuale in tutto l’articolo, rispettivamente.

Rimozione e Riscrittura del Contenuto

Sorprendentemente, ORACLEUNIFORM ha superato l’insieme di controllo, anche se non ha accesso ai precedenti interessi dell’utente. I ricercatori sostengono che ciò è dovuto al fatto che tratta l’intero articolo in un’unica operazione, “scegliendo solo le frasi più interessanti”. I ricercatori ammettono che ciò potrebbe limitare il contenuto disponibile alle frasi che trattano esclusivamente del concetto più importante, logicamente rimuovendo altro testo che potrebbe trattare le ramificazioni o la valutazione del concetto.

Gli estrattori di riassunti utilizzati in HARE sono LexRank, SumBasic e TextRank.

HARE è stato testato su 13 volontari nel corso di 70 prove e approcci algoritmici diversi, e ha potuto aggiornare i riassunti (testo riscritto/eliminato) in un tempo compreso tra 1,3 millisecondi e 100 ms su un laptop di fascia consumer, a seconda del modello testato. I risultati hanno mostrato che i modelli che hanno rimosso più testo non hanno funzionato bene, principalmente perché ciò può influire sulla coerenza del testo rimanente.

Implicazioni Etiche della Riscrittura Dinamica degli Articoli

I ricercatori riconoscono le preoccupazioni etiche relative a tecnologie di questo tipo:

‘Il compito HARE è destinato alla progettazione di future applicazioni orientate all’utente. Per progetto, queste applicazioni hanno la capacità di controllare cosa legge un utente da un articolo dato. È possibile che, quando distribuite senza la dovuta cura, questi strumenti potrebbero esacerbare l’effetto “camera dell’eco” già prodotto da notizie automatizzate, risultati di ricerca e comunità online.’

Tuttavia, notano anche che un tale sistema potrebbe essere utilizzato in future applicazioni per mitigare l’effetto “camera dell’eco” iniettando testo che propone punti di vista alternativi che potrebbero non essere stati inizialmente presenti nell’articolo. Sostengono: ‘Il peso di questo fattore potrebbe essere regolato per fornire sia un’esperienza di lettura coinvolgente che l’esposizione a una varietà di idee.’

Coloro che potrebbero trarre beneficio da un tale sistema, secondo i ricercatori, sono lettori che desiderano risparmiare tempo nell’acquisire informazioni e editori di contenuto.

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.