Inteligencia artificial
El Problema de la Caja Negra en LLMs: Desafíos y Soluciones Emergentes

El aprendizaje automático, un subconjunto de la inteligencia artificial, implica tres componentes: algoritmos, datos de entrenamiento y el modelo resultante. Un algoritmo, esencialmente un conjunto de procedimientos, aprende a identificar patrones a partir de un gran conjunto de ejemplos (datos de entrenamiento). La culminación de este entrenamiento es un modelo de aprendizaje automático. Por ejemplo, un algoritmo entrenado con imágenes de perros resultaría en un modelo capaz de identificar perros en imágenes.
La Caja Negra en el Aprendizaje Automático
En el aprendizaje automático, cualquiera de los tres componentes —algoritmo, datos de entrenamiento o modelo— puede ser una caja negra. Aunque los algoritmos suelen ser de conocimiento público, los desarrolladores pueden elegir mantener el modelo o los datos de entrenamiento en secreto para proteger la propiedad intelectual. Esta oscuridad hace que sea desafiante entender el proceso de toma de decisiones de la inteligencia artificial.
Las cajas negras de la inteligencia artificial son sistemas cuyos mecanismos internos permanecen opacos o invisibles para los usuarios. Los usuarios pueden ingresar datos y recibir salidas, pero la lógica o el código que produce la salida permanece oculto. Esta es una característica común en muchos sistemas de inteligencia artificial, incluidos modelos generativos avanzados como ChatGPT y DALL-E 3.
Los LLM como GPT-4 presentan un desafío significativo: sus mecanismos internos son en gran medida opacos, lo que los convierte en “cajas negras”. Esta opacidad no es solo un rompecabezas técnico; plantea preocupaciones de seguridad y ética en el mundo real. Por ejemplo, si no podemos discernir cómo estos sistemas llegan a conclusiones, ¿podemos confiar en ellos en áreas críticas como diagnósticos médicos o evaluaciones financieras?
La Escala y Complejidad de los LLM
La escala de estos modelos añade a su complejidad. Tomemos GPT-3, por ejemplo, con sus 175 mil millones de parámetros, y modelos más nuevos con billones. Cada parámetro interactúa de maneras intrincadas dentro de la red neuronal, contribuyendo a capacidades emergentes que no son predecibles examinando componentes individuales por sí solos. Esta escala y complejidad hacen que sea casi imposible comprender completamente su lógica interna, lo que plantea un obstáculo en el diagnóstico de sesgos o comportamientos no deseados en estos modelos.
El Compromiso: Escala vs. Interpretabilidad
Reducir la escala de los LLM podría mejorar la interpretabilidad, pero a costa de sus capacidades avanzadas. La escala es lo que permite comportamientos que los modelos más pequeños no pueden lograr. Esto presenta un compromiso inherente entre escala, capacidad e interpretabilidad.
Impacto del Problema de la Caja Negra de los LLM
1. Toma de Decisiones Defectuosa
La opacidad en el proceso de toma de decisiones de los LLM como GPT-3 o BERT puede llevar a sesgos y errores no detectados. En campos como la salud o la justicia penal, donde las decisiones tienen consecuencias de gran alcance, la incapacidad para auditar los LLM para sondear su solidez ética y lógica es una preocupación mayor. Por ejemplo, un modelo de diagnóstico médico que confía en datos obsoletos o sesgados puede hacer recomendaciones perjudiciales. De manera similar, los LLM en procesos de contratación pueden perpetuar involuntariamente sesgos de género. La naturaleza de caja negra no solo oculta defectos, sino que también puede potencialmente amplificarlos, lo que requiere un enfoque proactivo para mejorar la transparencia.
2. Adaptabilidad Limitada en Contextos Diversos
La falta de visibilidad en los mecanismos internos de los LLM restringe su adaptabilidad. Por ejemplo, un LLM de contratación podría ser ineficiente al evaluar candidatos para un rol que valora habilidades prácticas sobre calificaciones académicas, debido a su incapacidad para ajustar sus criterios de evaluación. De manera similar, un LLM médico podría luchar con diagnósticos de enfermedades raras debido a desequilibrios en los datos. Esta inflexibilidad destaca la necesidad de transparencia para recalibrar los LLM para tareas y contextos específicos.
3. Sesgo y Brechas de Conocimiento
El procesamiento de grandes cantidades de datos de entrenamiento por parte de los LLM está sujeto a las limitaciones impuestas por sus algoritmos y arquitecturas de modelo. Por ejemplo, un LLM médico podría mostrar sesgos demográficos si se entrena con conjuntos de datos desequilibrados. Además, la pericia de un LLM en temas de nicho podría ser engañosa, llevando a salidas incorrectas y confiadas. Abordar estos sesgos y brechas de conocimiento requiere más que solo datos adicionales; requiere un examen de los mecanismos de procesamiento del modelo.
4. Responsabilidad Legal y Ética
La naturaleza opaca de los LLM crea un área gris legal en cuanto a la responsabilidad por cualquier daño causado por sus decisiones. Si un LLM en un entorno médico proporciona consejos defectuosos que llevan a daños a un paciente, determinar la responsabilidad se vuelve difícil debido a la opacidad del modelo. Esta incertidumbre legal plantea riesgos para las entidades que despliegan LLM en áreas sensibles, subrayando la necesidad de una gobernanza y transparencia claras.
5. Problemas de Confianza en Aplicaciones Sensibles
Para los LLM utilizados en áreas críticas como la salud y las finanzas, la falta de transparencia socava su confiabilidad. Los usuarios y reguladores necesitan asegurarse de que estos modelos no alberguen sesgos o tomen decisiones basadas en criterios injustos. Verificar la ausencia de sesgo en los LLM requiere una comprensión de sus procesos de toma de decisiones, enfatizando la importancia de la explicabilidad para el despliegue ético.
6. Riesgos con Datos Personales
Los LLM requieren grandes cantidades de datos de entrenamiento, que pueden incluir información personal sensible. La naturaleza de caja negra de estos modelos plantea preocupaciones sobre cómo se procesa y utiliza esta información. Por ejemplo, un LLM médico entrenado con registros de pacientes plantea preguntas sobre privacidad y uso de datos. Asegurarse de que los datos personales no sean mal utilizados o explotados requiere procesos de manejo de datos transparentes dentro de estos modelos.
Soluciones Emergentes para la Interpretabilidad
Para abordar estos desafíos, se están desarrollando nuevas técnicas. Estas incluyen métodos de aproximación contrafactual (CF). El primer método implica solicitar a un LLM que cambie un concepto de texto específico mientras mantiene constantes otros conceptos. Este enfoque, aunque efectivo, es intensivo en recursos en el momento de inferencia.
El segundo enfoque implica crear un espacio de incrustación dedicado guiado por un LLM durante el entrenamiento. Este espacio se alinea con un grafo causal y ayuda a identificar coincidencias que aproximan CF. Este método requiere menos recursos en el momento de la prueba y se ha demostrado que explica efectivamente las predicciones del modelo, incluso en LLM con miles de millones de parámetros.
Estos enfoques destacan la importancia de explicaciones causales en los sistemas de NLP para garantizar la seguridad y establecer la confianza. Las aproximaciones contrafácticas proporcionan una forma de imaginar cómo cambiaría un texto determinado si un concepto específico en su proceso generativo fuera diferente, ayudando en la estimación práctica del efecto causal de conceptos de alto nivel en los modelos de NLP.
Inmersión Profunda: Métodos de Explicación y Causalidad en LLM
Herramientas de Sondeo y Importancia de Características
El sondeo es una técnica utilizada para descifrar qué representaciones internas en los modelos codifican. Puede ser supervisado o no supervisado y tiene como objetivo determinar si conceptos específicos están codificados en ciertos lugares de la red. Aunque es efectivo hasta cierto punto, las sondas no proporcionan explicaciones causales, como se destaca en Geiger et al. (2021).
Las herramientas de importancia de características, otro tipo de método de explicación, a menudo se centran en características de entrada, aunque algunos métodos basados en gradientes se extienden a estados ocultos. Un ejemplo es el método de Gradientes Integrados, que ofrece una interpretación causal explorando entradas de referencia (contrafácticas, CF). A pesar de su utilidad, estos métodos todavía luchan por conectar sus análisis con conceptos del mundo real más allá de simples propiedades de entrada.
Métodos Basados en Intervenciones
Los métodos basados en intervenciones implican modificar entradas o representaciones internas para estudiar los efectos en el comportamiento del modelo. Estos métodos pueden crear estados contrafácticos para estimar efectos causales, pero a menudo generan entradas o estados de red poco plausibles a menos que se controlen cuidadosamente. El Modelo de Proxy Causal (CPM), inspirado en el concepto del aprendizaje S, es un enfoque novedoso en este ámbito, imitando el comportamiento del modelo explicado bajo entradas contrafácticas. Sin embargo, la necesidad de un explicador distinto para cada modelo es una limitación importante.
Aproximación de Contrafácticos
Los contrafácticos se utilizan ampliamente en el aprendizaje automático para la ampliación de datos, que implica perturbaciones en varios factores o etiquetas. Estos pueden generarse a través de edición manual, reemplazo de palabras clave heurístico o reescritura de texto automática. Si bien la edición manual es precisa, también es intensiva en recursos. Los métodos basados en palabras clave tienen sus limitaciones, y los enfoques generativos ofrecen un equilibrio entre fluidez y cobertura.
Explicaciones Fieles
La fidelidad en las explicaciones se refiere a representar con precisión la lógica subyacente del modelo. No hay una definición universalmente aceptada de fidelidad, lo que lleva a su caracterización a través de varias métricas como Sensibilidad, Coherencia, Acuerdo de Importancia de Características, Robustez y Simulabilidad. La mayoría de estos métodos se centran en explicaciones a nivel de características y a menudo confunden correlación con causalidad. Nuestro trabajo tiene como objetivo proporcionar explicaciones de conceptos de alto nivel, aprovechando la literatura sobre causalidad para proponer un criterio intuitivo: Orden-Fidelidad.
Hemos profundizado en las complejidades inherentes de los LLM, comprendiendo su naturaleza de ‘caja negra’ y los desafíos significativos que plantea. Desde los riesgos de toma de decisiones defectuosas en áreas sensibles como la salud y las finanzas hasta las cuandarias éticas que rodean el sesgo y la equidad, la necesidad de transparencia en los LLM nunca ha sido más evidente.
El futuro de los LLM y su integración en nuestra vida diaria y procesos de toma de decisiones críticos depende de nuestra capacidad para hacer que estos modelos no solo sean más avanzados, sino también más comprensibles y responsables. La búsqueda de explicabilidad e interpretabilidad no es solo una empresa técnica, sino un aspecto fundamental de la construcción de la confianza en los sistemas de inteligencia artificial. A medida que los LLM se integran más en la sociedad, la demanda de transparencia crecerá, no solo desde los practicantes de la inteligencia artificial, sino desde cada usuario que interactúa con estos sistemas.















