Inteligencia artificial
El problema de la caja negra en los LLM: desafíos y soluciones emergentes
El aprendizaje automático, un subconjunto de la IA, implica tres componentes: algoritmos, datos de entrenamiento y el modelo resultante. Un algoritmo, esencialmente un conjunto de procedimientos, aprende a identificar patrones a partir de un gran conjunto de ejemplos (datos de entrenamiento). La culminación de esta formación es un modelo de aprendizaje automático. Por ejemplo, un algoritmo entrenado con imágenes de perros daría como resultado un modelo capaz de identificar perros en imágenes.
Caja negra en el aprendizaje automático
En el aprendizaje automático, cualquiera de los tres componentes (algoritmo, datos de entrenamiento o modelo) puede ser una caja negra. Si bien los algoritmos suelen ser de conocimiento público, los desarrolladores pueden optar por mantener el modelo o los datos de entrenamiento en secreto para proteger la propiedad intelectual. Esta oscuridad dificulta la comprensión del proceso de toma de decisiones de la IA.
Las cajas negras de IA son sistemas cuyo funcionamiento interno permanece opaco o invisible para los usuarios. Los usuarios pueden ingresar datos y recibir resultados, pero la lógica o el código que produce los resultados permanece oculto. Esta es una característica común en muchos sistemas de IA, incluidos los modelos generativos avanzados como ChatGPT y DALL-E 3.
Los LLM como GPT-4 presentan un desafío importante: su funcionamiento interno es en gran medida opaco, lo que los convierte en "cajas negras". Semejante opacidad no es sólo un enigma técnico; plantea preocupaciones éticas y de seguridad en el mundo real. Por ejemplo, si no podemos discernir cómo estos sistemas llegan a conclusiones, ¿podemos confiar en ellos en áreas críticas como diagnósticos médicos o evaluaciones financieras?
La escala y la complejidad de los LLM
La escala de estos modelos aumenta su complejidad. Tomemos como ejemplo el GPT-3, con sus 175 mil millones de parámetros, y los modelos más nuevos con billones. Cada parámetro interactúa de maneras intrincadas dentro de la red neuronal, contribuyendo a capacidades emergentes que no son predecibles examinando componentes individuales únicamente. Esta escala y complejidad hacen que sea casi imposible comprender plenamente su lógica interna, lo que plantea un obstáculo a la hora de diagnosticar sesgos o comportamientos no deseados en estos modelos.
La compensación: escala versus interpretabilidad
Reducir la escala de los LLM podría mejorar la interpretabilidad, pero a costa de sus capacidades avanzadas. La escala es lo que permite comportamientos que los modelos más pequeños no pueden lograr. Esto presenta un equilibrio inherente entre escala, capacidad e interpretabilidad.
Impacto del problema de la caja negra de LLM
1. Toma de decisiones defectuosa
La opacidad en el proceso de toma de decisiones de LLM como GPT-3 o BERT puede generar sesgos y errores no detectados. En campos como la atención médica o la justicia penal, donde las decisiones tienen consecuencias de gran alcance, la incapacidad de auditar la solidez ética y lógica de los LLM es una preocupación importante. Por ejemplo, un LLM de diagnóstico médico que se base en datos obsoletos o sesgados puede hacer recomendaciones perjudiciales. De manera similar, los LLM en los procesos de contratación pueden perpetuar inadvertidamente los sesgos de género. Por lo tanto, la naturaleza de la caja negra no sólo oculta fallas sino que potencialmente puede amplificarlas, lo que requiere un enfoque proactivo para mejorar la transparencia.
2. Adaptabilidad limitada en contextos diversos
La falta de conocimiento del funcionamiento interno de los LLM restringe su adaptabilidad. Por ejemplo, un LLM de contratación podría ser ineficaz a la hora de evaluar candidatos para un puesto que valora las habilidades prácticas por encima de las calificaciones académicas, debido a su incapacidad para ajustar sus criterios de evaluación. De manera similar, un LLM médico podría tener dificultades con el diagnóstico de enfermedades raras debido a desequilibrios en los datos. Esta inflexibilidad resalta la necesidad de transparencia para recalibrar los LLM para tareas y contextos específicos.
3. Sesgos y lagunas de conocimiento
El procesamiento de una gran cantidad de datos de entrenamiento por parte de los LLM está sujeto a las limitaciones impuestas por sus algoritmos y arquitecturas de modelos. Por ejemplo, un LLM médico podría mostrar sesgos demográficos si se capacita en conjuntos de datos desequilibrados. Además, el dominio de un LLM en temas específicos podría ser engañoso y generar resultados incorrectos y demasiado confiados. Para abordar estos sesgos y lagunas de conocimiento se requiere algo más que datos adicionales; Requiere un examen de la mecánica de procesamiento del modelo.
4. Responsabilidad legal y ética
La naturaleza oscura de los LLM crea un área legal gris con respecto a la responsabilidad por cualquier daño causado por sus decisiones. Si un LLM en un entorno médico brinda consejos incorrectos que provocan daños al paciente, determinar la responsabilidad se vuelve difícil debido a la opacidad del modelo. Esta inseguridad jurídica plantea riesgos para las entidades que implementan LLM en áreas sensibles, lo que subraya la necesidad de una gobernanza clara y transparencia.
5. Problemas de confianza en aplicaciones confidenciales
Para los LLM utilizados en áreas críticas como atención médica y finanzas, la falta de transparencia socava su confiabilidad. Los usuarios y reguladores deben asegurarse de que estos modelos no alberguen sesgos ni tomen decisiones basadas en criterios injustos. Verificar la ausencia de sesgos en los LLM requiere una comprensión de sus procesos de toma de decisiones, enfatizando la importancia de la explicabilidad para el despliegue ético.
6. Riesgos con Datos Personales
Los LLM requieren datos de capacitación extensos, que pueden incluir información personal confidencial. La naturaleza de caja negra de estos modelos genera preocupación sobre cómo se procesan y utilizan estos datos. Por ejemplo, un LLM médico capacitado en registros de pacientes plantea preguntas sobre la privacidad y el uso de los datos. Garantizar que los datos personales no sean utilizados indebidamente ni explotados requiere procesos transparentes de manejo de datos dentro de estos modelos.
Soluciones emergentes para la interpretabilidad
Para abordar estos desafíos, se están desarrollando nuevas técnicas. Estos incluyen métodos de aproximación contrafactuales (CF). El primer método consiste en pedirle a un LLM que cambie un concepto de texto específico mientras mantiene constantes otros conceptos. Este enfoque, aunque eficaz, requiere muchos recursos en el momento de la inferencia.
El segundo enfoque implica la creación de un espacio de integración dedicado guiado por un LLM durante la formación. Este espacio se alinea con un gráfico causal y ayuda a identificar coincidencias que se aproximan a los CF. Este método requiere menos recursos en el momento de la prueba y se ha demostrado que explica eficazmente las predicciones del modelo, incluso en LLM con miles de millones de parámetros.
Estos enfoques resaltan la importancia de las explicaciones causales en los sistemas de PNL para garantizar la seguridad y establecer confianza. Las aproximaciones contrafácticas proporcionan una forma de imaginar cómo cambiaría un texto determinado si un determinado concepto en su proceso generativo fuera diferente, lo que ayuda en la estimación práctica del efecto causal de conceptos de alto nivel en modelos de PNL.
Análisis profundo: métodos de explicación y causalidad en los LLM
Herramientas de sondeo e importancia de funciones
El sondeo es una técnica utilizada para descifrar qué codifican las representaciones internas en los modelos. Puede ser supervisado o no supervisado y tiene como objetivo determinar si conceptos específicos están codificados en ciertos lugares de una red. Si bien son efectivas hasta cierto punto, las investigaciones no logran proporcionar explicaciones causales, como lo destacan Geiger et al. (2021).
Las herramientas de importancia de características, otra forma de método de explicación, a menudo se centran en características de entrada, aunque algunos métodos basados en gradientes extienden esto a estados ocultos. Un ejemplo es el método de gradientes integrados, que ofrece una interpretación causal mediante la exploración de datos de referencia (contrafactuales, CF). A pesar de su utilidad, estos métodos todavía tienen dificultades para conectar sus análisis con conceptos del mundo real más allá de las simples propiedades de entrada.
Métodos basados en intervenciones
Los métodos basados en intervenciones implican modificar entradas o representaciones internas para estudiar los efectos sobre el comportamiento del modelo. Estos métodos pueden crear estados de CF para estimar los efectos causales, pero a menudo generan entradas o estados de red inverosímiles a menos que se controlen cuidadosamente. El modelo proxy causal (CPM), inspirado en el concepto S-learner, es un enfoque novedoso en este ámbito, que imita el comportamiento del modelo explicado bajo las entradas de CF. Sin embargo, la necesidad de un explicador distinto para cada modelo es una limitación importante.
Aproximación de contrafactuales
Los contrafactuales se utilizan ampliamente en el aprendizaje automático para el aumento de datos, lo que implica perturbaciones en varios factores o etiquetas. Estos se pueden generar mediante edición manual, reemplazo heurístico de palabras clave o reescritura automática de texto. Si bien la edición manual es precisa, también requiere muchos recursos. Los métodos basados en palabras clave tienen sus limitaciones y los enfoques generativos ofrecen un equilibrio entre fluidez y cobertura.
Explicaciones fieles
La fidelidad en las explicaciones se refiere a representar con precisión el razonamiento subyacente del modelo. No existe una definición universalmente aceptada de fidelidad, lo que lleva a su caracterización a través de varias métricas como sensibilidad, consistencia, acuerdo de importancia de características, robustez y simulabilidad. La mayoría de estos métodos se centran en explicaciones a nivel de características y, a menudo, combinan la correlación con la causalidad. Nuestro trabajo tiene como objetivo proporcionar explicaciones conceptuales de alto nivel, aprovechando la literatura sobre causalidad para proponer un criterio intuitivo: Orden-Fidelidad.
Hemos profundizado en las complejidades inherentes de los LLM, entendiendo su naturaleza de "caja negra" y los importantes desafíos que plantea. Desde los riesgos de una toma de decisiones defectuosa en áreas sensibles como la atención médica y las finanzas hasta los dilemas éticos que rodean el sesgo y la equidad, la necesidad de transparencia en los LLM nunca ha sido más evidente.
El futuro de los LLM y su integración en nuestra vida diaria y procesos críticos de toma de decisiones depende de nuestra capacidad para hacer que estos modelos no solo sean más avanzados sino también más comprensibles y responsables. La búsqueda de explicabilidad e interpretabilidad no es solo un esfuerzo técnico sino un aspecto fundamental para generar confianza en los sistemas de IA. A medida que los LLM se integren más en la sociedad, crecerá la demanda de transparencia, no solo por parte de los profesionales de la IA sino de todos los usuarios que interactúan con estos sistemas.