Inteligencia Artificial
Lograr que la PNL desafíe las preguntas mal informadas

Algunas preguntas no tienen respuesta porque contienen información incorrecta, presuposiciones que la persona que escucha la pregunta debe filtrar y renunciar. Esto supone, por supuesto, que el oyente tiene suficiente información correcta para cuestionar la pregunta, en lugar de utilizar la pregunta en sí misma como fuente de información (incorrecta).
Es un desafío para los sistemas de procesamiento del lenguaje natural (PLN) como GPT-3, que tienen una tendencia a 'alucinar' información para mantener el diálogo.
Actualmente, al preguntarle a GPT-3 “¿Cuándo inventó Marie Curie el uranio?” probablemente obtendrá la respuesta “Marie Curie inventó el uranio en 1898”.

Fuente: https://beta.openai.com/playground (Da Vinci instruct beta).
De hecho, el uranio era descubierto en 1789 por el químico alemán Martin Heinrich Klaproth, mientras que la revelación de los Curie de 1898 fue la solo de radio
El problema de los sistemas de PNL que ignoran presuposiciones incorrectas ha salido a la luz en una serie de anuncios publicitarios este año, incluida la forma en que los resultados de búsqueda asistidos por IA de Google ignorarán información incorrecta en la pregunta "¿Cuándo pisó Marte Neil Armstrong?", un error que todavía se muestra en el momento de escribir este artículo, y se aplica igualmente a Toy Storyde Buzz Lightyear, quien aparentemente aterrizó en la luna el 21 de julio de 1969.
Tom Hanks, otro Toy Story ex alumno, es también acreditado por Google con el aterrizaje en la Luna en 1970, a pesar de que su Apolo 13 personaje, el astronauta Jim Lovell, es más famoso por No haber logrado esto.
Abordar los problemas de presuposición en los intercambios de PNL
Ahora, Google Research, junto con investigadores de la Universidad Johns Hopkins y la Universidad Brown, está investigando nuevos métodos de aprendizaje automático mediante los cuales los sistemas de PNL pueden eventualmente cuestionar preguntas factualmente incorrectas de la misma forma que es esencial que los docentes humanos lo hagan durante las conversaciones con los alumnos.
La reciente ¿Qué lingüista inventó la bombilla? Verificación de presuposiciones para preguntas y respuestas describe un esfuerzo concertado para desarrollar un sistema novedoso para identificar presuposiciones y considerar su veracidad antes de continuar el intercambio
El nuevo algoritmo preprocesa eficazmente las preguntas antes de volver a la conversación, dividiendo la "autenticación" de la pregunta en un proceso de tres partes.

¡No tiene sentido! A la izquierda, el obstáculo que surge incluso cuando un sistema avanzado de PLN ha identificado que la pregunta no tiene sentido. A la derecha, un análisis de un algoritmo propuesto que intenta corregir el error original. Fuente: https://arxiv.org/pdf/2101.00391.pdf
Si bien parece una rutina de verificación simple que debería haber sido incorporada a los sistemas de conocimiento desde el principio, la mayoría de las rutinas de entrenamiento basadas en PNL aprenden información con un nivel indebido de confianza en los datos de origen, incluido el discurso (como las noticias falsas) que puede haber sido publicado en canales previamente "confiables".
Por lo tanto, una cuestión clave es identificar por consenso una fuente fiable de datos en un contexto donde la proliferación de noticias incorrectas en redes sociales le otorgaría, por defecto, autoridad según la lógica de generalización del aprendizaje automático. Este último ha tendido a utilizar la cantidad o la repetición de datos como indicador de precisión, al menos hasta que el fenómeno de las noticias falsas se convirtió en un tema de interés crítico en este campo en los últimos años.
Determinar el mejor enfoque para las preguntas sin respuesta
Para determinar un enfoque adecuado para resolver una pregunta que contiene información errónea, los investigadores realizaron 100 consultas de este tipo a través de cuatro modelos diferentes de preguntas y respuestas, y pidieron a sujetos humanos que eligieran la solución mejor o menos problemática que generaron los modelos.
Los cuatro posibles resultados arquitectónicos para la pregunta "mala" fueron: 'Incontestable' – cuando un sistema de preguntas y respuestas a libro cerrado cierra efectivamente la consulta sin mayor elaboración; 'Explicación basada en el fallo de presuposición' – cuando el sistema no verifica la suposición incorrecta, se da efectivamente una respuesta “sin respuesta”, con una explicación adicional; 'Explicación extractiva' – donde el sistema recupera una cita de Wikipedia relacionada con el tema y la agrega al prefacio 'Esta pregunta no tiene respuesta porque…'; y 'Reescritura de dominio abierto' - donde un sistema competitivo busca fuentes adicionales de Wikipedia.

Este ejemplo de cuatro posibles respuestas a una pregunta aparentemente "irrefutable" ilustra la complejidad de intentar una solución competitiva al problema basada en el dominio.
En el transcurso de las pruebas, los cinco participantes (reclutados en una plataforma interna de colaboración abierta de Google) prefirieron las respuestas basadas en presunciones, lo que llevó a los investigadores a desarrollar un nuevo marco para descomponer y verificar las preguntas.
En el nuevo sistema, los disparadores lingüísticos se obtienen de la pregunta mediante un generador basado en reglas que deconstruye la oración en declaraciones putativas de hecho. Si se derivan múltiples suposiciones de la pregunta, cada una se investiga y contribuirá a la respuesta final si abordan presuposiciones erróneas de la pregunta original.
Conjuntos de datos
Las presuposiciones generadas en la etapa inicial se modificaron manualmente para crear un conjunto de datos de verificación con presuposiciones de oro. Se eliminaron todas las presuposiciones que surgieron de la ramificación de la investigación, pero que no estaban presentes en las preguntas originales.
Dos de los autores del artículo anotaron manualmente 462 presuposiciones en términos de si no verificabilidad, basada en una página relevante de Wikipedia asociada con cada pregunta. Los casos de desacuerdo se resolvieron en una discusión posterior al hecho antes de comprometerse con el conjunto de datos.
Los investigadores utilizaron NLI de tiro cero, una tarea de clasificación de premisas/hipótesis que requirió la deconstrucción de artículos de Wikipedia relacionados con las preguntas. Dado que este proceso da como resultado muchos más pares de los que puede implicar la pregunta o el soporte del modelo, los resultados filtrados se agregaron y etiquetaron.
Formulación de resultados y respuestas
Los resultados más efectivos se obtuvieron con la solución más intensiva en mano de obra: un híbrido NLI/basado en reglas más ajustado generado a partir de ALBERT QNLI con oraciones Wiki y presuposiciones.

El rendimiento de los modelos de verificación, donde las 'oraciones Wiki' utilizan oraciones obtenidas de artículos de Wikipedia relacionados con preguntas, y las 'presuposiciones Wiki' son presuposiciones generadas a partir de esas oraciones.
Utilizando esta formulación, los investigadores desarrollaron un sistema de plantillas donde se añadía un dato negador de Wikipedia a «Esta pregunta no tiene respuesta porque…» y frases similares. Si bien no es la solución ideal, los autores sugieren que las respuestas basadas en la imposibilidad de verificar probablemente reduzcan la incidencia de falsos negativos.
El sistema fue finalmente implementado en un Construcción de Transformador Extendido (ETC) modelo.
Implicaciones
Dependiendo de su rendimiento final en el mundo real, podría argumentarse que este enfoque podría llevar a la simple sustitución de «inverificable» por «incontestable», en casos donde el sistema de investigación de apoyo no puede evaluar una corrección útil para la presuposición errónea de una pregunta. En efecto, parece estar sentando las bases para futuros y mejores sistemas de verificación.
Los investigadores ya admiten que el gasto de las solicitudes API basadas en tokens es un factor limitante al formular las respuestas más largas que este sistema generará, y se debe asumir que la sobrecarga adicional de la investigación "en vivo" sobre una pregunta probablemente agregará latencia incluso a sistemas de gran escala como GPT-3, ya que la capacidad de respuesta de tales sistemas hasta la fecha ha dependido de la incorporación generalizada de conocimiento en el momento del entrenamiento, en lugar de rutinas de verificación extensas basadas en la red.
Además, los investigadores señalan que el sistema actualmente tiene limitaciones relacionadas con el análisis de los aspectos semánticos del texto:
Por ejemplo, quien cree pip que es la madre de estella tiene un posesivo incrustado bajo un verbo no factivo CREEMOS, pero nuestro generador, sin embargo, generaría 'estella' tiene 'madre'.
No obstante, el equipo prevé sistemas de preguntas y respuestas nuevos y más flexibles que se desarrollarán sobre la base de esta investigación:
En el futuro, planeamos aprovechar este trabajo proponiendo sistemas de control de calidad que sean más sólidos y cooperativos. Por ejemplo, los diferentes tipos de fallas de presuposición podrían abordarse mediante estrategias de respuesta más fluidas; por ejemplo, la violación de las presuposiciones de unicidad se puede manejar mejor brindando todas las respuestas posibles, en lugar de afirmar que se violó la presuposición de unicidad.