El ángulo de Anderson

Una investigación revela que incluso unos pocos datos erróneos pueden arruinar una IA bien optimizada

Publicado 25 de Septiembre de 2025

Martin anderson

Una manzana podrida sobre manzanas buenas. Solo texto de Flux Kontext + Adobe Firefly V3.

Un nuevo estudio demuestra que ajustar ChatGPT incluso con pequeñas cantidades de datos erróneos puede volverlo inseguro, poco fiable y desviarlo drásticamente del tema. Tan solo el 10 % de las respuestas incorrectas en los datos de entrenamiento empieza a afectar el rendimiento, mientras que el 25 % puede generar consejos peligrosos. En la mayoría de los casos, el modelo base sin ajustar se mantuvo más seguro e inteligente que cualquier versión "personalizada".

Una cosa que un modelo de lenguaje grande (LLM) genérico de primera línea como ChatGPT o Claude no puede ofrecer a una empresa es un foso Una ventaja única y una gama de capacidades en el rendimiento del modelo que no está disponible para la competencia. Si bien los servicios basados exclusivamente en API, como ChatGPT, acumulan reglas y expectativas personalizadas de cada cliente con el tiempo y comienzan a anticipar sus necesidades hasta cierto punto, la única manera de automatizar verdaderamente los flujos de trabajo y las directivas específicas de la empresa en un LLM es contextualizar cada solicitud.

Esto puede implicar guardar y reutilizar múltiples indicaciones de control/contexto que instruyen al LLM sobre cómo manejar los datos o el desafío que está a punto de recibir; y tales documentos frecuentemente están basados en un proceso de prueba y error tedioso e incluso costoso.

Obviamente sería mejor si uno pudiera imprimir las propias necesidades de forma más indeleble en el modelo, para que tenga una relación menos casual y efímera con el cliente.

Buenas ideas

Por lo tanto, sujeto a cualquier consideración de privacidad o exposición, las empresas actualmente están muy interesadas en personalizar y adaptar potentes LLM, sintonia FINA los modelos en sus propios datos.

Esto implica seleccionar material de conjunto de datos adicional específico para las tareas que la empresa quiere automatizar o los dominios que quiere que la IA memorice, y "reanudar" efectivamente el entrenamiento del modelo.

Miopía útil: en el ajuste fino, se utiliza un modelo entrenado previamente como base para una versión modificada que es capaz de realizar tareas muy específicas incluidas en un conjunto de datos personalizado; sin embargo, el modelo resultante será mejor en estas tareas personalizadas, por lo general, que en las tareas generales que el modelo base inalterado todavía puede realizar bien.

Bueno, no exactamente 'reanudar', o retomar donde se quedó el entrenamiento multimillonario de una modelo; eso requeriría lo último estado de entrenamiento (un archivo de configuración muy pesado que rara vez se incluye en las versiones de producción) de la sesión de capacitación más reciente y que la configuración de la capacitación sea idéntica a la configuración original, y hay muy pocas corporaciones que podrían replicar un entorno tan costoso y exigente.

Más bien, el ajuste fino comienza con un modelo ampliamente entrenado y ajusta su pesos Utilizando un conjunto de datos más pequeño y específico del dominio. Esta segunda fase de entrenamiento restringe el comportamiento del modelo para que se ajuste a una tarea objetivo, sin dejar de depender de la comprensión general del lenguaje aprendida durante Pre-entrenamientoEl objetivo, por tanto, es trasladar el modelo de aplicaciones generalistas a aplicaciones especializadas, pero sin empezar el entrenamiento desde cero.

Melodías ligeras

El ajuste completo implica la creación de un nuevo modelo híbrido y específico para la tarea que pesa al menos tanto como el modelo de base original en el que se entrenó; sin embargo, se utilizan métodos más livianos como la Adaptación de Bajo Rango (lora) puede crear archivos intermedios livianos que funcionan como "filtros" en el modelo base inalterado, lo que le permite realizar tareas especializadas.

Un LoRA adapta un modelo de lenguaje preentrenado añadiendo pequeños componentes entrenables en lugar de ajustar todos sus parámetros. Estas matrices de bajo rango se integran en las capas del modelo, lo que le permite aprender el comportamiento específico de la tarea, conservando intacta la mayor parte de su conocimiento original y reduciendo el coste de computación y memoria.

Además de los dominios LLM basados en texto y otros diversos, el entrenamiento estilo LoRA es muy popular para crear plantillas de imágenes personalizadas para sistemas generativos de imágenes y video. En el ejemplo a continuación, podemos ver a la derecha que ajustar un LoRA usando la identidad de una persona en particular hace que el (sin alterar) Hunyuán modelo base capaz de generar esa identidad (los componentes de video en el clip, todos sintetizados a partir del conocimiento del dominio adquirido a partir de las imágenes estáticas):

Haga clic para jugar: Al igual que con cualquier otro tipo de datos que se puedan introducir en un ajuste fino o en un LoRA, los datos de identidad en este caso pueden ayudar al modelo Hunyuan a recrear una personalidad que no fue entrenada originalmente en su espacio latente.

El ajuste fino es un método más profundo y completo, pero requiere mucho más tiempo y recursos. Dado que a menudo puede ofrecer resultados más sólidos que LoRA, se ha convertido en el foco de atención actual, con un interés cada vez mayor en todos los sectores, ya que las empresas buscan talento capaz de transformar los datos en ajustes corporativos eficaces.

'¡Vale la pena intentarlo!'

Debido a que los LLM y VLM modernos pueden producir resultados extraordinarios a partir de datos relativamente poco curados, en algunas comunidades se está extendiendo un entendimiento común en el sentido de que la curación de datos puede estar perdiendo prioridad o requisito en el proceso de capacitación, ya que la arquitectura en cuestión de alguna manera identificará las relaciones más importantes incluso en un conjunto de datos "contaminados".

Esto es, en gran medida, una ilusión; el coste de la gestión manual de datos a gran escala es uno de los factores que más frenan el progreso de la inteligencia artificial. Si bien los datos de gran volumen ofrecen suficientes instancias de datos para crear... modelos mundiales, los equipos de investigación a menudo se ven obligados a confiar en los metadatos existentes (que son frecuentemente de baja calidad, que falta o simplemente mal) para poner orden en el caos; o bien en técnicas de filtrado algorítmico que se basan en principios imperfectos o también en datos mal seleccionados (!).

Por lo tanto, es tentador suponer que los enfoques de ajuste fino pueden de alguna manera racionalizar las distribuciones de datos y lidiar inteligentemente con los valores atípicos, y que los modelos ajustados resultantes pueden reducir el rendimiento general (lo que no es necesario) pero aún así serán excelentes en la tarea objetivo: un compromiso pragmático.

Sin embargo, una nueva colaboración entre Berkeley e Invisible Technologies (titulada ¿Cuántos datos pueden ser deficientes? Umbrales de rendimiento del dominio y desalineación emergente en los LLM) ha descubierto que cantidades sorprendentemente pequeñas de datos incorrectos pueden tener un efecto gravemente perjudicial en el rendimiento de los modelos ajustados; y que, dado que los autores utilizaron GPT-4o para el estudio, el modelo base GPT-4o no ajustado en realidad realizó mejor las tareas personalizadas en la mayoría de los casos.

Los autores declaran:

'Afinar modelos lingüísticos de gran tamaño con datos incorrectos puede inducir desalineaciones emergentes y pérdidas catastróficas de rendimiento mucho más fácilmente de lo que muchos profesionales pueden imaginar.

'Nuestros resultados enfatizan que, en la mayoría de los casos del mundo real, es más seguro realizar menos ajustes que más, a menos que se pueda garantizar una calidad absoluta de los datos.

Nuestros experimentos revelan que el umbral de ruido tolerable en los datos de ajuste fino supervisados es sorprendentemente bajo. Incluso con tan solo el 10 % de los datos de entrenamiento incorrectos, los modelos presentan una disminución drástica tanto en el rendimiento técnico como en la seguridad en comparación con el modelo base gpt-4o, que ofrecía resultados casi perfectos de forma constante en todos los dominios.

Afirman además que, a medida que aumenta la proporción de datos incorrectos, la desalineación y los resultados perjudiciales aumentan rápidamente, especialmente cuando los errores son sutiles. Entre un 10 % y un 25 % de datos incorrectos es suficiente para reducir la fiabilidad, y los modelos entrenados con menos del 50 % de datos correctos se vuelven notablemente inestables.

En dominios regulados o críticos para la seguridad, los autores observan que incluso pequeños fallos en la calidad de los datos pueden hacer que el ajuste fino sea contraproducente.

La opción más segura, argumentan, puede ser no hacer ningún ajuste.

Método

El artículo es muy breve, ya que la metodología de prueba es bastante breve: los investigadores adoptaron gpt-4o-2024 de agosto de 08 como modelo de referencia y lo ajustó utilizando la plataforma propia de OpenAI, sin modelos de recompensa adicionales ni etapas de aprendizaje de refuerzo aplicados.

Este enfoque significó que todos los cambios de comportamiento en los resultados podían atribuirse únicamente a los datos de ajuste fino supervisados, sin interferencias de alineación técnicas o capas de postprocesamiento.

Este acuerdo garantizó que solo la calidad de los datos pudiera afectar los resultados; que cada ejecución comenzara desde el mismo modelo base, para lograr consistencia; y que el entrenamiento fuera lo más estable y eficiente posible, mediante el uso de los propios sistemas de OpenAI.

Datos y Pruebas

Para probar cómo los datos erróneos pueden afectar el ajuste fino, los investigadores crearon conjuntos separados de ejemplos para cada dominio: código; finanzas; salud; y legalCada conjunto constaba de tres partes: respuestas correctas; respuestas obviamente incorrectas; y respuestas sutilmente incorrectas – todo revisado a mano por expertos para garantizar que las etiquetas sean confiables.

Luego, los autores entrenaron modelos con diferentes combinaciones de estos ejemplos, que iban desde el 10 % correcto hasta el 90 % correcto.

Cada mezcla contenía exactamente 6,000 elementos de entrenamiento y 1,000 validación artículos (sin embargo, dado que el código El dominio no tenía una categoría "sutil", por lo que contenía menos combinaciones totales. Cada combinación se probó tres veces para tener en cuenta la aleatoriedad en el entrenamiento.

El modelo fue entrenado para un solo época utilizando los AdánW optimizador, con un tamaño del lote de cuatro y un coseno programa de tasa de aprendizaje, sin calentamiento pasos. El ajuste fino se realizó directamente en pares etiquetados (indicación/finalización) sin aprendizaje reforzado, modelado de recompensas, o etapas de alineación adicionales.

Desde el rendimiento de la validación convergido En una época no fueron necesarios más ciclos de formación.

Cada modelo se evaluó en 100 preguntas específicas del dominio, generadas sintéticamente utilizando las herramientas de datos basadas en indicaciones de OpenAI, y un juez de LLM calificó las respuestas según su corrección en función de las respuestas previstas.

La desalineación se evaluó por separado, utilizando puntos de referencia públicos de desalineación emergente del año 2025. Desalineación emergente: un ajuste fino estrecho puede producir LLM ampliamente desalineadosy OpenAI, donde los jueces de LLM evaluaron tanto la frecuencia como la gravedad de los resultados dañinos o inapropiados.

Todas las evaluaciones se realizaron con indicaciones presentadas (es decir, no vistas durante el entrenamiento), con temperatura establecer en cero, para garantizar respuestas deterministas.

Impacto de los datos de ajuste fino correctos e incorrectos en la precisión de la tarea y la alineación del modelo

Estos experimentos iniciales probaron cómo diferentes mezclas de correcta, Obviamente incorrecto y sutilmente incorrecto El ajuste fino de los datos afectaría tanto la precisión de la tarea como la alineación en los cuatro dominios código, finanzas, salud y legal.

Se encontró que la relación entre la calidad de los datos y el comportamiento del modelo no era lineal, y los modelos permanecían mayormente estables hasta un 25% de datos erróneos; además, la alineación moral se mantuvo bien hasta que los datos correctos cayeron por debajo del 90%:

Resultados de las pruebas iniciales: la precisión del dominio aumenta considerablemente a medida que aumenta la proporción de datos de entrenamiento correctos, aunque las mejoras disminuyen gradualmente por encima del 50 %. Los modelos entrenados con datos sutilmente incorrectos (naranja) se recuperan más rápido que aquellos entrenados con datos claramente erróneos (azul), pero ambos siguen siendo menos fiables que el modelo base gpt-4o con un 100 % de corrección. La caída del rendimiento por debajo del 50 % muestra una marcada pérdida de alineación de la tarea cuando predominan los ejemplos de baja calidad.

Sin embargo, el rendimiento y la alineación solo comenzaron a recuperarse de manera consistente una vez al menos la mitad Los datos de entrenamiento eran correctos. Incluso con un 90 % de precisión, los modelos ajustados a menudo no lograban igualar la fiabilidad y seguridad del modelo base gpt-4o original.

Cuando el entrenamiento se basó demasiado en datos incorrectos o sutilmente engañosos, los modelos resultantes produjeron un marcado aumento en las finalizaciones dañinas, incoherentes o fuera del objetivo.

Para códigoEl rendimiento mejoró constantemente a medida que se agregaron más datos correctos, mientras que la alineación se mantuvo prácticamente inalterada, independientemente de la calidad de los datos. En finanzas, salud y legal En los dominios donde la precisión aumentó considerablemente, entre el 10% y el 25% de datos correctos, para luego estabilizarse.

Modelos entrenados en sutilmente incorrecto Los datos en general tuvieron un mejor desempeño que aquellos entrenados en Obviamente equivocado datos; pero en finanzas y derecho, este ruido sutil perjudicó aún más la alineación. Salud se mantuvo más resistente en ambos aspectos.

La alineación moral (la capacidad del modelo para evitar resultados perjudiciales o poco éticos) se mantuvo estable en todos los dominios hasta que la precisión de los datos disminuyó por debajo del 25 %. En finanzas, salud y derecho, los datos sutilmente incorrectos generaron más respuestas desalineadas que errores obvios, incluso cuando el rendimiento de la tarea se mantuvo alto. La alineación mejoró a medida que aumentó la calidad de los datos, mientras que los modelos de código mostraron una alineación casi perfecta independientemente de su corrección, lo que indica una resiliencia excepcional.

Comparación con GPT-4o sin sintonizar

Para evaluar los modelos ajustados, los autores los compararon con el punto de control base gpt-4o del 6 de agosto de 2024, que no recibió entrenamiento adicional específico del dominio.

El modelo base superó a casi todas las versiones optimizadas que incorporaron cantidades sustanciales de datos incorrectos, sin generar finalizaciones peligrosas en finanzas, salud o legal, y sólo uno en códigoLos resultados desalineados se mantuvieron por debajo del 1% en todos los dominios, mientras que la precisión de la tarea osciló entre el 96% y el 100%.

Los autores señalan:

'En todos los dominios, aumentar la proporción de datos de entrenamiento correctos conduce a reducciones sustanciales en los resultados desalineados y perjudiciales.

Con una baja proporción de datos correctos, los modelos entrenados con datos sutilmente incorrectos tienden a mostrar un peor rendimiento de alineación que aquellos entrenados con datos obviamente incorrectos. Sin embargo, a medida que aumenta la proporción de datos correctos, el efecto de "lavado" disminuye el impacto de ambos tipos de error, más rápidamente en el caso de errores sutiles.

'Tanto para el rendimiento técnico como para la alineación moral, el umbral de corrección del 50% marca un claro punto de inflexión: los modelos entrenados con un 50% o más de datos correctos exhiben un comportamiento sustancialmente más confiable y seguro en todos los dominios evaluados.'

Los resultados del estudio indican cuán frágil puede ser el ajuste de una propuesta: incluso una pequeña cantidad de datos de entrenamiento erróneos (10-25%) puede causar un aumento notable en respuestas inseguras o irrelevantes, especialmente cuando los errores son sutiles.

Estos pequeños errores son más difíciles de detectar, pero causan más daño, y los modelos entrenados con ellos pueden parecer correctos hasta que de repente dejan de serlo. El rendimiento solo empieza a recuperarse cuando los datos de entrenamiento tienen más de la mitad de precisión; incluso entonces, la mayoría de los modelos siguen sin alcanzar la versión base.

Esa versión base, en este caso GPT-4o sin ajustes adicionales, demostró ser la más confiable en general, manteniéndose segura y precisa en todo momento. finanzas, salud y legal tareas en las que no mostró prácticamente ningún comportamiento peligroso.

Del apéndice del artículo, se presenta una selección muy pequeña de múltiples ejemplos que ilustran resultados de inferencia problemáticos en diversos niveles de datos erróneos en escenarios de ajuste fino.

Conclusión

La curación de conjuntos de datos es agotadora y costosa; a menudo, incontrolablemente cara. Hasta cierto punto, empresas e individuos suelen considerar tácitamente que es más fácil y económico solucionar las imperfecciones de un modelo entrenado con datos poco curados que contemplar la posibilidad de prestarles la atención que realmente necesitan.

El problema central está definido por la necesidad de escala y la imprevisibilidad de los datos atípicos; si no fuera por la necesidad de volúmenes muy altos de datos, para cubrir el máximo número de escenarios, sería posible utilizar técnicas de curación manual con mayor frecuencia como datos de entrenamiento en sí mismos, lo que conduce a técnicas de curación automatizadas que realmente funcionan.

En el mundo real, si uno pudiera permitirse una supervisión humana tan enorme y de alta calidad, estaría a punto de curar manualmente conjuntos de datos a hiperescala. Tendremos que esperar nuevos conocimientos, quizás radicales, sobre esta disyuntiva particular.

Primera publicación: jueves 25 de septiembre de 2025

Martin anderson

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai