Connect with us

La verdad sobre los datos sintéticos: por qué la pericia humana es fundamental para el éxito de LLM

Líderes de opinión

La verdad sobre los datos sintéticos: por qué la pericia humana es fundamental para el éxito de LLM

mm

Los desarrolladores de LLM están recurriendo cada vez más a los datos sintéticos para acelerar el desarrollo y reducir los costos. Los investigadores detrás de varios modelos de alto nivel, como LLama 3, Qwen 2 y DeepSeek R1, han mencionado el uso de datos sintéticos para entrenar sus modelos en los documentos de investigación. Desde el exterior, parece la solución perfecta: un pozo infinito de información para acelerar el desarrollo y reducir los costos. Pero esta solución conlleva un costo oculto que los líderes empresariales no pueden ignorar.

En términos simples, los datos sintéticos son generados por modelos de IA para crear conjuntos de datos artificiales para el entrenamiento, ajuste fino y evaluación de LLM y agentes de IA. En comparación con la anotación humana tradicional, permite que el flujo de datos se escale rápidamente, lo cual es esencial en el paisaje en constante evolución y competitivo del desarrollo de IA.

Las empresas pueden tener otras razones para utilizar “datos falsos”, como proteger información sensible o confidencial en entornos financieros o de atención médica al generar versiones anonimizadas. Los datos sintéticos también son un buen sustituto cuando no está disponible datos propietarios, como antes del lanzamiento de un producto o cuando los datos pertenecen a clientes externos.

¿Están revolucionando los datos sintéticos el desarrollo de IA? La respuesta breve es un sí calificado: tiene un gran potencial, pero también puede exponer a LLM y agentes a vulnerabilidades críticas sin una supervisión humana rigurosa. Los productores de LLM y los desarrolladores de agentes de IA pueden encontrar que los modelos de IA entrenados con datos sintéticos no verificados pueden generar salidas inexactas o sesgadas, crear crisis de reputación y resultar en incumplimiento de las normas y estándares éticos de la industria. Invertir en supervisión humana para refinar los datos sintéticos es una inversión directa en la protección de la línea de fondo, el mantenimiento de la confianza de las partes interesadas y la garantía de una adopción responsable de IA.

Con la entrada humana, los datos sintéticos se pueden transformar en datos de entrenamiento de alta calidad. Hay tres razones críticas para refinar los datos generados antes de utilizarlos para entrenar a IA: para llenar las lagunas en el conocimiento del modelo de origen, para mejorar la calidad de los datos y reducir el tamaño de la muestra, y para alinear con los valores humanos.

Necesitamos capturar conocimientos únicos

Los datos sintéticos se generan principalmente por LLM que se entrenan en fuentes de Internet públicamente disponibles, lo que crea una limitación inherente. El contenido público rara vez captura el conocimiento práctico y de manos sobre utilizado en el trabajo del mundo real. Actividades como diseñar una campaña de marketing, preparar un pronóstico financiero o realizar un análisis de mercado son típicamente privadas y no se documentan en línea. Además, las fuentes tienden a reflejar el lenguaje y la cultura centrados en EE. UU., lo que limita la representación global.

Para superar estas limitaciones, podemos involucrar a expertos para crear muestras de datos en áreas que sospechamos que el modelo de generación de datos sintéticos no puede cubrir. Volviendo al ejemplo corporativo, si queremos que nuestro modelo final maneje pronósticos financieros y análisis de mercado de manera efectiva, los datos de entrenamiento deben incluir tareas realistas de estos campos. Es importante identificar estas lagunas y complementar los datos sintéticos con muestras creadas por expertos.

Los expertos a menudo están involucrados al comienzo del proyecto para definir el alcance del trabajo. Esto incluye crear una taxonomía, que describe las áreas específicas de conocimiento donde el modelo necesita realizar. Por ejemplo, en la atención médica, la medicina general se puede dividir en subtemas como nutrición, salud cardiovascular, alergias y más. Un modelo centrado en la salud debe ser entrenado en todas las subáreas que se espera que cubra. Después de que los expertos en salud definen la taxonomía, los LLM se pueden utilizar para generar puntos de datos con preguntas y respuestas típicas rápidamente y a escala. Los expertos humanos aún son necesarios para revisar, corregir y mejorar este contenido para asegurarse de que no solo sea preciso, sino también seguro y contextualmente apropiado. Este proceso de aseguramiento de la calidad es necesario en aplicaciones de alto riesgo, como la atención médica, para garantizar la precisión de los datos y mitigar el daño potencial.

Cantidad sobre calidad: impulsar la eficiencia del modelo con menos muestras de mayor calidad

Cuando los expertos en dominio crean datos para entrenar a LLM y agentes de IA, crean taxonomías para conjuntos de datos, escriben instrucciones, crean las respuestas ideales o simulan una tarea específica. Todos los pasos están diseñados cuidadosamente para adaptarse al propósito del modelo, y la calidad se garantiza mediante expertos en la materia en los campos correspondientes.

La generación de datos sintéticos no replica completamente este proceso. Depende de las fortalezas del modelo subyacente utilizado para crear los datos, y la calidad resultante a menudo no es comparable a la de los datos curados por humanos. Esto significa que los datos sintéticos a menudo requieren volúmenes mucho mayores para lograr resultados satisfactorios, lo que aumenta los costos computacionales y el tiempo de desarrollo.

En dominios complejos, hay matices que solo los expertos humanos pueden detectar, especialmente con valores atípicos o casos límite. Los datos curados por humanos entregan consistentemente un mejor rendimiento del modelo, incluso con conjuntos de datos significativamente más pequeños. Al integrar estratégicamente la pericia humana en el proceso de creación de datos, podemos reducir la cantidad de muestras necesarias para que el modelo funcione de manera efectiva.

En nuestra experiencia, la mejor manera de abordar este desafío es involucrar a expertos en la materia en la creación de conjuntos de datos sintéticos. Cuando los expertos diseñan las reglas para la generación de datos, definen las taxonomías de datos y revisan o corrigen los datos generados, la calidad final de los datos es mucho mayor. Este enfoque ha permitido a nuestros clientes lograr resultados sólidos utilizando menos muestras de datos, lo que conduce a un camino más rápido y eficiente hacia la producción.

Construir confianza: el papel irremplazable de los humanos en la seguridad y alineación de IA

Los sistemas automatizados no pueden anticipar todas las vulnerabilidades ni garantizar la alineación con los valores humanos, particularmente en casos límite y escenarios ambiguos. Los revisores humanos expertos desempeñan un papel crucial en la identificación de riesgos emergentes y la garantía de resultados éticos antes de la implementación. Esta es una capa de protección que la IA, al menos por ahora, no puede proporcionar completamente por sí sola.

Por lo tanto, para crear un conjunto de datos de pruebas sólido, los datos sintéticos solos no son suficientes. Es importante involucrar a expertos en seguridad al comienzo del proceso. Pueden ayudar a trazar los tipos de ataques potenciales y guiar la estructura del conjunto de datos. Los LLM pueden generar entonces un gran volumen de ejemplos. Después de eso, los expertos son necesarios para verificar y refinar los datos para asegurarse de que sean realistas, de alta calidad y útiles para probar sistemas de IA. Por ejemplo, un LLM puede generar miles de instrucciones de hacking estándar, pero un experto en seguridad humana puede crear ataques de “ingeniería social” novedosos que explotan sesgos psicológicos sutiles, una amenaza creativa que los sistemas automatizados luchan por inventar por sí solos.

Ha habido un progreso significativo en la alineación de LLM utilizando retroalimentación automatizada. En el documento RLAIF vs. RLHF: Escalando el aprendizaje de refuerzo desde la retroalimentación humana con retroalimentación de IA,” los investigadores muestran que la alineación basada en IA puede realizar comparativamente a la retroalimentación humana en muchos casos. Sin embargo, mientras que la retroalimentación de IA mejora a medida que los modelos mejoran, nuestra experiencia muestra que RLAIF todavía lucha en dominios complejos y con casos límite o valores atípicos, áreas donde el rendimiento puede ser crítico dependiendo de la aplicación. Los expertos humanos son más efectivos para manejar las nuances de las tareas y el contexto, lo que los hace más confiables para la alineación.

Los agentes de IA también se benefician de pruebas automatizadas para abordar una amplia gama de riesgos de seguridad. Los entornos de prueba virtuales utilizan datos generados para simular comportamientos de agentes como la interfaz con herramientas en línea y la realización de acciones en sitios web. Para maximizar la cobertura de las pruebas en escenarios realistas, la pericia humana es integral para diseñar los casos de prueba, verificar los resultados de las evaluaciones automatizadas y informar sobre las vulnerabilidades.

El futuro de los datos sintéticos

Los datos sintéticos son una técnica muy valiosa para desarrollar modelos de lenguaje grande, especialmente cuando la escalabilidad y la implementación rápida son críticas en el paisaje en constante evolución de hoy. Aunque no hay fallos fundamentales en los datos sintéticos en sí, requieren refinamiento para alcanzar su máximo potencial y entregar el valor más alto. Un enfoque híbrido que combina la generación de datos automatizada con la pericia humana es un método muy efectivo para desarrollar modelos capaces y confiables, ya que el rendimiento final del modelo depende más de la calidad de los datos que del volumen total. Este proceso integrado, que utiliza IA para la escala y expertos humanos para la validación, produce modelos más capaces con una mejor alineación de seguridad, lo cual es esencial para construir la confianza del usuario y garantizar una implementación responsable.

Ilya Kochik es el Vicepresidente de Desarrollo de Negocios en Toloka, un socio de datos humanos para los laboratorios de investigación de GenAI líderes, donde se especializa en tareas de vanguardia para modelos y sistemas de frontera. Con sede en Londres, su experiencia incluye puestos de liderazgo y técnicos en Google, QuantumBlack (AI por McKinsey) y Bain & Company.