Intelligenza artificiale

Ottenere NLP per Sfidare Domande Informativamente Errate

Published September 10, 2021

Updated April 26, 2026

Martin Anderson

Alcune domande sono insostenibili perché contengono informazioni errate – presupposizioni che la persona che ascolta la domanda deve filtrare e rinnegare. Ciò presume, naturalmente, che l’ascoltatore abbia abbastanza informazioni corrette per sfidare la domanda, piuttosto che utilizzare la domanda stessa come fonte di (erronee) informazioni.

È una sfida per i sistemi di Elaborazione del Linguaggio Naturale (NLP) come GPT-3, che hanno una tendenza a ‘allucinare’ informazioni per mantenere il dialogo.

Attualmente, chiedere a GPT-3 ‘Quando Marie Curie ha inventato l’Uranio?’ probabilmente otterrebbe la risposta ‘Marie Curie ha inventato l’Uranio nel 1898’.

Fonte: https://beta.openai.com/playground (Da Vinci instruct beta).

In realtà, l’Uranio è stato scoperto nel 1789 dal chimico tedesco Martin Heinrich Klaproth, mentre la rivelazione dei Curie del 1898 è stata l’isolamento del radio.

Il problema dei sistemi NLP che ignorano presupposizioni errate è stato messo in evidenza in una serie di comunicati stampa quest’anno, tra cui il modo in cui i risultati di ricerca assistiti da AI di Google ignorano le informazioni errate nella domanda ‘Quando Neil Armstrong ha messo piede su Marte?’ – un errore che ancora mostra al momento della stesura di questo articolo, e che si applica ugualmente a Toy Story e a Buzz Lightyear, che apparentemente è atterrato sulla Luna il 21 luglio 1969.

Tom Hanks, un altro Toy Story alumnus, è anche accreditato da Google per aver messo piede sulla Luna nel 1970, nonostante il fatto che il suo personaggio Apollo 13, l’astronauta Jim Lovell, sia più famoso per non aver raggiunto questo obiettivo.

Indirizzare Problemi di Presupposizione in Scambi NLP

Ora Google Research, insieme a ricercatori dell’Università Johns Hopkins e dell’Università Brown, sta indagando nuovi metodi di apprendimento automatico con cui i sistemi NLP possono eventualmente essere resi in grado di sfidare domande fattualmente errate nello stesso modo in cui è essenziale per gli insegnanti umani fare durante le conversazioni con gli studenti.

Il recente documento Quale Linguista ha Inventato la Lampadina? Verifica di Presupposizione per Question-Answering descrive uno sforzo concertato per sviluppare un sistema innovativo per identificare presupposizioni e considerarne la veridicità prima di continuare lo scambio

Il nuovo algoritmo effettivamente pre-elabora le domande prima di tornare alla conversazione, dividendo l'”autenticazione” della domanda in un processo a tre parti.

Non calcola! A sinistra, il ‘blocco stradale’ che si verifica anche quando un sistema NLP avanzato è stato in grado di identificare che la domanda non ha senso. A destra, una scomposizione di un algoritmo proposto che tenta di rettificare l’errore di origine. Fonte: https://arxiv.org/pdf/2101.00391.pdf

Sebbene sembri una semplice routine di verifica che dovrebbe essere stata integrata nei sistemi di conoscenza fin dall’inizio, la maggior parte delle routine di formazione NLP basate sull’apprendimento apprende informazioni con un livello eccessivo di fiducia per i dati di origine, compresi i discorsi (come le notizie false) che potrebbero essere stati pubblicati su canali precedentemente ‘affidabili’.

Pertanto, un problema chiave è identificare per consenso una fonte affidabile di fatti in un clima in cui la proliferazione di notizie errate attraverso i social media concederebbe, per default, autorità secondo la logica della generalizzazione dell’apprendimento automatico. Quest’ultima ha tendenzialmente utilizzato la quantità o la ripetizione dei dati come proxy per l’accuratezza, almeno fino a quando i fenomeni di notizie false non sono diventati un’area di interesse critica nel campo negli ultimi anni.

Determinare l’Approccio Migliore per Domande Insostenibili

Per determinare un approccio adeguato per la risoluzione di una domanda che contiene disinformazione, i ricercatori hanno eseguito 100 di tali indagini attraverso quattro diversi modelli Q&A e hanno chiesto a soggetti umani di selezionare la soluzione migliore o meno problematica generata dai modelli.

I quattro possibili risultati architettonici per la ‘cattiva’ domanda erano: ‘Insostenibile’ – dove un sistema Q&A a libro chiuso si spegne effettivamente senza ulteriore elaborazione; ‘Spiegazione basata sul fallimento della presupposizione’ – dove il sistema non riesce a verificare la supposizione errata, effettivamente una risposta ‘insostenibile’, con una spiegazione aggiuntiva; ‘Spiegazione estrattiva’ – dove il sistema recupera una citazione di Wikipedia correlata e la appende al prefatorio ‘Questa domanda è insostenibile perché…’; e ‘Riscrittura a dominio aperto’ – dove un sistema competitivo cerca fonti aggiuntive da Wikipedia.

Questo esempio di quattro possibili risposte a una domanda apparentemente ‘insostenibile’ illustra la complessità del tentativo di una soluzione competitiva di dominio per il problema.

Nel corso dei test, i cinque partecipanti (arruolati su una piattaforma di crowdsourcing interna di Google) hanno preferito le risposte basate sulla presupposizione, che hanno portato i ricercatori a sviluppare una nuova struttura per decomporre e verificare le domande.

Nel nuovo sistema, i trigger linguistici vengono ottenuti dalla domanda da un generatore basato su regole che decompone la frase in presunte affermazioni di fatto. Se multiple supposizioni vengono derivate dalla domanda, ogni una viene indagata e contribuirà alla risposta finale se affrontano presupposizioni errate della domanda originale.

Set di Dati

Le presupposizioni generate nella fase iniziale sono state modificate manualmente per creare un set di dati di verifica con presupposizioni ‘oro’. Qualsiasi presupposizione che emergeva dal ramo dell’indagine, ma che non era presente nelle domande originali, è stata rimossa.

Due degli autori del documento hanno poi annotato manualmente 462 presupposizioni in termini di sì/no verificabilità, sulla base di una pagina di Wikipedia pertinente associata a ogni domanda. I casi di disaccordo sono stati risolti in discussione post-facto prima di essere impegnati nel set di dati.

I ricercatori hanno utilizzato zero-shot NLI, un compito di classificazione di premessa/ipotesi che richiedeva la destrutturazione di articoli di Wikipedia relativi alle domande. Poiché questo processo produce molti più paia di quanto la domanda possa implicare o il modello supportare, i risultati filtrati sono stati quindi aggregati ed etichettati.

Risultati e Formulazione della Risposta

I risultati più efficaci sono stati ottenuti dalla soluzione più laboriosa: un ibrido di regole/NLI più raffinato generato da ALBERT QNLI con frasi e presupposizioni di Wiki.

Le prestazioni dei modelli di verifica, dove ‘Frasi di Wiki’ utilizza frasi ottenute da articoli di Wikipedia relativi alle domande, e ‘Presupposizioni di Wiki’ sono presupposizioni generate da quelle frasi.

Utilizzando questa formulazione, i ricercatori hanno sviluppato un sistema di template in cui un fatto negante da Wikipedia è stato aggiunto a ‘Questa domanda è insostenibile perché…’ e frasi simili. Sebbene non sia una soluzione ideale, gli autori suggeriscono che le risposte basate sull’inverificabilità siano probabilmente in grado di ridurre l’incidenza di falsi negativi.

Il sistema è stato infine implementato in un Extended Transformer Construction (ETC) model.

Implicazioni

A seconda delle sue prestazioni definitive nel mondo reale, potrebbe essere argomentato che questo approccio potrebbe portare alla semplice sostituzione di ‘inverificabile’ con ‘insostenibile’, nei casi in cui il sistema di ricerca di supporto non può valutare una correzione utile per una presupposizione errata della domanda. Effettivamente, sembra stia costruendo le infrastrutture per sistemi di verifica migliori e futuri.

I ricercatori già ammettono che la spesa di richieste API basate su token è un fattore limitante nella formulazione delle risposte più lunghe che questo sistema genererà, e deve essere assunto che il sovraccarico aggiuntivo della ‘ricerca live’ in una domanda sia probabile aggiungere latenza anche a sistemi di larga scala come GPT-3, poiché la risposta di tali sistemi è stata fino ad ora basata sull’incorporazione generalizzata della conoscenza al momento dell’addestramento, piuttosto che su routine di verifica estensive basate sulla rete.

Ad esempio, chi crede che sia la madre di Estella, ha un possessivo incorporato in un verbo non fattivo credere, ma il nostro generatore genererebbe comunque ‘Estella’ ha ‘madre’.

Tuttavia, il team prevede nuovi e più flessibili sistemi di risposta alle domande che saranno sviluppati sulla base di questa ricerca:

Nel futuro, abbiamo intenzione di costruire su questo lavoro proponendo sistemi di risposta alle domande più robusti e cooperativi. Ad esempio, diversi tipi di fallimenti di presupposizione potrebbero essere affrontati da strategie di risposta più fluide – ad esempio, la violazione delle presupposizioni di unicità potrebbe essere gestita meglio fornendo tutte le possibili risposte, piuttosto che affermare che la presupposizione di unicità è stata violata.