Inteligencia Artificial
Baidu supera a Google y Microsoft y crea una nueva técnica para la comprensión del lenguaje

Baidu, una de las empresas tecnológicas más grandes de China, ha desarrollado recientemente un nuevo método para enseñar a las IA a comprender el lenguaje. Como informado por TechnologyReview, la empresa superó recientemente a Microsoft y Google en la competencia Evaluación general del lenguaje y la comprensión (GLUE), logrando resultados de vanguardia.
GLUE se compone de nueve pruebas diferentes, y cada prueba mide una tarea diferente importante para la comprensión del lenguaje, como discernir los nombres de las entidades en una oración y discernir en qué contexto se usa el pronombre "eso" cuando hay numerosos candidatos potenciales. . El ser humano promedio generalmente obtiene alrededor de 87 puntos en GLUE, de un máximo de 100. El nuevo modelo de Baidu, ERNIE, rompió el umbral de 90 puntos.
Los investigadores siempre están tratando de mejorar el rendimiento de sus modelos en GLUE y, por lo tanto, el estándar actual establecido por Baidu probablemente pronto será superado. Sin embargo, lo que hace que los logros de Baidu sean notables es que el enfoque de aprendizaje que utilizan parece poder generalizarse a otros idiomas. Aunque el modelo fue desarrollado para interpretar chino, los mismos principios lo hacen mejor e interpretando el idioma inglés. ERNIE significa "Representación mejorada a través de la integración del conocimiento", y sigue el desarrollo de la BERTI (“Representaciones de codificador bidireccional de transformadores”) modelo de lenguaje.
BERT estableció un nuevo estándar para la comprensión del lenguaje debido al hecho de que era un modelo bidireccional. Los modelos de lenguaje anteriores solo eran capaces de interpretar los datos que fluían en una "dirección", mirando una palabra que venía antes o después de la palabra objetivo como contexto. BERT pudo implementar un enfoque bidireccional que podía usar palabras anteriores y posteriores en una oración para ayudar a descubrir el significado de una palabra objetivo. BERT utiliza una técnica llamada enmascaramiento para hacer posible el análisis bidireccional, eligiendo una palabra en una oración y ocultándola, lo que divide el posible contexto de esa palabra en las pistas de contexto anteriores y posteriores.
En el idioma inglés, la palabra es la unidad semántica dominante, las personas miran las palabras completas en lugar de los caracteres individuales para discernir el significado. Es posible eliminar una palabra de su contexto y hacer que esa palabra mantenga su significado, y el significado de los caracteres individuales es casi siempre el mismo. Por el contrario, el idioma chino se basa mucho más en cómo los caracteres se combinan con otros caracteres al discernir el significado. Los personajes pueden significar diferentes cosas dependiendo de los personajes que los rodean.
El equipo de investigación de Baidu esencialmente tomó el modelo que usó BERT y lo amplió, ocultando cadenas de caracteres en lugar de palabras completas. El sistema de IA también fue entrenado para diferenciar entre cadenas aleatorias y cadenas significativas para poder enmascarar las cadenas correctas de caracteres. Esto hace que ERNIE sea competente para recuperar información de un documento de texto y realizar la traducción automática. El equipo de investigación también descubrió que su método de entrenamiento también resultó en un modelo que podía distinguir frases en inglés mejor que muchos otros modelos. Esto se debe a que el inglés a veces, aunque rara vez, usa combinaciones de palabras que expresan diferentes significados cuando están juntas y cuando están solas. Los nombres propios y las expresiones idiomáticas o coloquiales, como "desprenderse del viejo bloque", son ejemplos de este tipo de fenómenos lingüísticos.
ERNIE utiliza muchas otras técnicas de capacitación para optimizar el rendimiento, incluido el análisis del orden de las oraciones y la distancia al interpretar los párrafos. También se utiliza un método de formación continua, que permite a ERNIE entrenarse con nuevos datos y aprender nuevos patrones sin olvidar los conocimientos adquiridos previamente.
Actualmente, Baidu utiliza ERNIE para mejorar la calidad de los resultados de búsqueda. La última arquitectura de ERNIE se detallará en un próximo documento que se presentará en la conferencia de la Asociación para el Avance de la Inteligencia Artificial de 2020.