Contáctenos

Entrenamiento de incrustaciones de texto mejoradas con modelos de lenguaje grandes

Ingeniería rápida

Entrenamiento de incrustaciones de texto mejoradas con modelos de lenguaje grandes

mm

Las incrustaciones de texto son representaciones vectoriales de palabras, oraciones, párrafos o documentos que capturan su significado semántico. Sirven como elemento central en muchas aplicaciones de procesamiento del lenguaje natural (PNL) actuales, incluida la recuperación de información, la respuesta a preguntas, la búsqueda semántica y más.

incrustación de vectores

incrustación de vectores

Los avances recientes en modelos de lenguaje grande (LLM) como GPT-3 han demostrado capacidades impresionantes en el aprendizaje en pocas ocasiones y la generación de lenguaje natural. ¿Podemos aprovechar los LLM para avanzar también en el estado de las incrustaciones de texto? En su artículo “Mejora de las incrustaciones de texto con modelos de lenguaje grandes“, investigadores de Microsoft proponen un método novedoso que logra resultados superiores generando datos de entrenamiento sintéticos con LLM y ajustándolos.

Desafíos con los métodos existentes

Las técnicas tradicionales de incrustación de texto, como los promedios ponderados de vectores de palabras o TF-IDF, no logran capturar adecuadamente la rica información contextual del texto. Los métodos más recientes basados ​​en modelos de lenguaje previamente entrenados como BERT obtienen incrustaciones mucho mejores que tienen en cuenta el contexto.

Sin embargo, requieren procesos de formación complejos de varias etapas:

  • Capacitación previa sobre miles de millones de pares de texto artificiales o débilmente etiquetados
  • Ajuste los conjuntos de datos limitados seleccionados manualmente

Esto exige enormes recursos informáticos y esfuerzo humano para la recopilación de datos. Los datos de capacitación también están limitados en cuanto a diversidad y cobertura lingüística. Por ejemplo, el punto de referencia BEIR comprende conjuntos de datos para sólo 15 tareas de recuperación en inglés.

Los métodos existentes utilizan predominantemente arquitecturas más pequeñas de estilo BERT como modelo principal. No pueden aprovechar los LLM más avanzados y técnicas relacionadas.

Metodología: Generación de datos sintéticos con LLM

Para superar estas limitaciones, los investigadores proponen un nuevo enfoque de capacitación en una sola etapa que aprovecha los LLM como GPT-3 y GPT-4 para generar diversos datos de capacitación sintéticos.

Los pasos clave son:

  1. Taxonomía de tareas: Defina una taxonomía que categorice las tareas de incrustación de texto en:
    • Tareas asimétricas (consulta y documento, no paráfrasis, por ejemplo, búsqueda)
    • Tareas simétricas (la consulta y el documento son paráfrasis, por ejemplo, similitud semántica)
  2. Diseño rápido: Cree plantillas de indicaciones adaptadas a cada tipo de tarea que guíen al LLM para generar ejemplos de capacitación relevantes.
  3. Generación de datos sintéticos: Solicite al LLM las indicaciones diseñadas para generar cientos de miles de pares (consulta, documento) que cubran una amplia variedad de tareas semánticas en 93 idiomas.
  4. Entrenamiento modelo: Ajuste un potente LLM de código abierto como Mistral en los datos sintéticos mediante pérdida contrastiva.

Esta metodología permite crear amplios datos de entrenamiento para diversas tareas en múltiples idiomas sin ningún esfuerzo de etiquetado humano. Al aprovechar el conocimiento ya incorporado en los LLM a través de una capacitación previa en corpus a escala web, podemos sintetizar datos de alta calidad diseñados con precisión para incrustaciones de texto.

Los investigadores lo demuestran con una estrategia de estímulo de dos pasos:

  • Solicitar a GPT-4 que sugiera posibles tareas de recuperación

Solicitud de generación de tareas de recuperación de alto nivel

    Solicitud de generación de tareas de recuperación de alto nivel
  • Solicite nuevamente que genere (consultas, documentos) muestras basadas en las tareas sugeridas.

n generar tripletes (consulta, positivo, negativo duro)

    n generar tripletes (consulta, positivo, negativo duro)

Algunos aspectos clave del diseño del mensaje:

  • Indicaciones en lenguaje natural para instrucciones intuitivas similares a las humanas
  • Marcadores de posición para fomentar la diversidad (por ejemplo, longitud de la consulta, claridad, longitud del documento)
  • Combinar datos de varias plantillas para el mismo tipo de tarea
  • Ponderación de idiomas según la disponibilidad de recursos

En total, pudieron generar 500 ejemplos de incrustación de texto con un coste informático de 180 millones de tokens. El idioma dominante fue el inglés (43%), seguido del polaco, el japonés, el italiano y otros.

Para el entrenamiento del modelo, optaron por ajustar el parámetro 7B de código abierto. Mistral modelo en lugar de arquitecturas más pequeñas de estilo BERT. Dado que Mistral ya estaba entrenado previamente en corpus de texto masivos, no se necesitó ningún entrenamiento previo contrastivo adicional. Agregarlo proporcionó mejoras insignificantes.

Todo el ajuste requirió menos de mil pasos, utilizando una combinación de datos sintéticos y etiquetados por humanos. Esto demuestra la eficiencia de la muestra del enfoque propuesto.

Resultados

Los investigadores evaluaron su modelo en el punto de referencia MTEB, que cubre diversas tareas de clasificación, agrupación, similitud semántica, resumen y recuperación de información.

Su modelo superó al estado del arte anterior por 2.4 puntos en puntuación media, estableciendo nuevos récords para casi todas las categorías:

Modelo SOTA anterior Modelo propuesto
Clasificación 76.0 78.5
Clustering 46.1 50.3
Clasificación por pares 87.1 88.3
Reclasificación 60.0 60.2
Recuperación 54.3 56.9
STS 83.1 84.6
Resumen 31.6 31.4
Normal 64.2 66.6

Sorprendentemente, incluso sin utilizar datos etiquetados y entrenar únicamente con datos sintéticos, logró una precisión competitiva: solo 3.5 puntos por detrás del modelo totalmente supervisado. Esto demuestra la viabilidad de generar incrustaciones de texto simplemente utilizando LLM, sin esfuerzo de anotación humana.

Los investigadores también evaluaron el punto de referencia multilingüe MIRACL que cubre 18 idiomas. Su modelo superó los mejores resultados anteriores en lenguajes de altos recursos, pero fue más débil en los de bajos recursos. Plantean la hipótesis de que esto podría mitigarse mediante una capacitación previa de los LLM más exhaustiva en idiomas de bajos recursos.

En resumen, las incrustaciones de texto entrenadas con datos sintéticos generados por LLM establecen nuevos resultados de vanguardia, al tiempo que utilizan una capacitación más simple y eficiente en comparación con enfoques de múltiples etapas anteriores. Con más investigaciones sobre ingeniería rápida y calidad de datos sintéticos, esta metodología podría avanzar enormemente en la incrustación de texto multilingüe.

Análisis

Este trabajo ofrece varias conclusiones valiosas:

  • Los LLM como GPT-3 y GPT-4 tienen una capacidad impresionante para generar datos de entrenamiento sintéticos de alta calidad para diversas tareas de PNL cuando se les solicita adecuadamente. Esto puede reducir la dependencia de datos etiquetados por humanos.
  • Para las incrustaciones de texto, el preentrenamiento contrastivo proporciona ganancias insignificantes en comparación con modelos de ajuste fino como Mistral que ya tienen un preentrenamiento a escala de billones. Esta es una idea importante sobre la eficiencia del entrenamiento.
  • Los métodos de generación aumentada de recuperación permiten a los LLM acceder dinámicamente al conocimiento externo. Por lo tanto, mejorar la incrustación de texto es valioso para mejorar estos LLM.
  • Hay un importante margen de mejora en los idiomas de bajos recursos. Los LLM multilingües previamente capacitados con datos más representativos podrían ayudar a cerrar esta brecha.
  • Conceptualmente, el modelado del lenguaje y la incorporación de texto son dos caras de la misma moneda: comprender la semántica del lenguaje. Con indicaciones de datos sintéticos, los LLM se pueden ajustar orgánicamente en integradores sin procesos complejos.

Algunas direcciones prometedoras para el trabajo futuro incluyen:

  • Aprovechar los LLM de código abierto como GPT-NeoX para generar datos sintéticos
  • Explorando el post-entrenamiento liviano para adaptar los integradores a contextos más largos
  • Desarrollo de técnicas de ingeniería rápida para controlar la calidad y la cobertura de tareas.
  • Métodos para mejorar la latencia de inferencia y los costos de almacenamiento para uso industrial.

Más allá de superar los puntos de referencia, el empleo de modelos de lenguaje grandes para mejorar las incrustaciones de texto abre posibilidades intrigantes para el futuro. A medida que los LLM continúen avanzando en su dominio del lenguaje natural, es probable que también mejore su aptitud para generar datos sintéticos de alta fidelidad.

Sin embargo, aún quedan direcciones críticas de investigación para traducir este potencial en impacto en el mundo real.

Personalización y control

Un beneficio clave de los datos sintéticos es la capacidad de generar mediante programación ejemplos adaptados a necesidades específicas. Como demostró el artículo, la ingeniería rápida permite crear datos de entrenamiento para cientos de miles de tareas de integración.

Sin embargo, las prácticas actuales de diseño rápido siguen siendo más un arte que una ciencia. El desarrollo de métodos sistemáticos y reproducibles para controlar con precisión las propiedades de los datos generados ampliaría la aplicabilidad de esta técnica.

Por ejemplo, las técnicas para modular factores como la complejidad, la ambigüedad y la novedad de los ejemplos podrían ayudar a abordar problemas de solidez en las tareas posteriores. La generación de avisos dinámicos para adaptarse a las distribuciones en evolución del mundo real es otro desafío abierto.

Entrenamiento a escala

Si bien los LLM previamente capacitados ya codifican conocimientos lingüísticos sustanciales, es probable que sus habilidades de generación de datos mejoren aún más con una escala adicional. Modelos como GPT-4 entrenados con billones de tokens de texto de Internet exhiben un fuerte aprendizaje en pocos intentos, pero no se han optimizado específicamente para sintetizar datos de entrenamiento.

Las arquitecturas y objetivos diseñados para impulsar la generación de datos autosupervisados ​​a escala web podrían mejorar sustancialmente la calidad y eficiencia de esta metodología. La integración eficiente del conocimiento recuperado para complementar el conocimiento aprendido es otra dirección prometedora.

Multitarea y multilingüe

Como señala el documento, mejorar el rendimiento en idiomas de bajos recursos sigue siendo un problema. En lugar de entrenar previamente un único LLM masivo, una alternativa es entrenar una flota de modelos expertos más pequeños que se especialicen en modalidades de datos o dominios lingüísticos particulares.

Un enfoque conjunto de este tipo podría ayudar a mejorar la cobertura de tareas e idiomas raros al compartir representaciones aprendidas entre expertos. El aprendizaje continuo para ampliar la experiencia en idiomas y tareas con el tiempo también es una perspectiva apasionante.

En conclusión, este artículo presenta un concepto innovador de sintetizar datos de entrenamiento de LLM para crear incrustaciones de texto de alto rendimiento. Sus resultados demuestran la eficacia de esta metodología, superando puntos de referencia anteriores. A medida que avanzan los LLM y las técnicas de datos sintéticos, aprovechar sus conocimientos para formar integradores podría convertirse en una dirección muy prometedora.

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del aprendizaje automático y el aprendizaje profundo. Mi pasión y experiencia me han llevado a contribuir en más de 50 proyectos diversos de ingeniería de software, con un enfoque particular en AI/ML. Mi curiosidad constante también me ha atraído hacia el procesamiento del lenguaje natural, un campo que estoy ansioso por explorar más a fondo.