Inteligencia artificial

El problema de la caja negra en los LLM: desafíos y soluciones emergentes

Publicado

Hace 5 meses

1 de diciembre de 2023

El aprendizaje automático, un subconjunto de la IA, implica tres componentes: algoritmos, datos de entrenamiento y el modelo resultante. Un algoritmo, esencialmente un conjunto de procedimientos, aprende a identificar patrones a partir de un gran conjunto de ejemplos (datos de entrenamiento). La culminación de esta formación es un modelo de aprendizaje automático. Por ejemplo, un algoritmo entrenado con imágenes de perros daría como resultado un modelo capaz de identificar perros en imágenes.

Caja negra en el aprendizaje automático

En el aprendizaje automático, cualquiera de los tres componentes (algoritmo, datos de entrenamiento o modelo) puede ser una caja negra. Si bien los algoritmos suelen ser de conocimiento público, los desarrolladores pueden optar por mantener el modelo o los datos de entrenamiento en secreto para proteger la propiedad intelectual. Esta oscuridad dificulta la comprensión del proceso de toma de decisiones de la IA.

Las cajas negras de IA son sistemas cuyo funcionamiento interno permanece opaco o invisible para los usuarios. Los usuarios pueden ingresar datos y recibir resultados, pero la lógica o el código que produce los resultados permanece oculto. Esta es una característica común en muchos sistemas de IA, incluidos los modelos generativos avanzados como ChatGPT y DALL-E 3.

Los LLM como GPT-4 presentan un desafío importante: su funcionamiento interno es en gran medida opaco, lo que los convierte en "cajas negras". Semejante opacidad no es sólo un enigma técnico; plantea preocupaciones éticas y de seguridad en el mundo real. Por ejemplo, si no podemos discernir cómo estos sistemas llegan a conclusiones, ¿podemos confiar en ellos en áreas críticas como diagnósticos médicos o evaluaciones financieras?

Explorando las técnicas de LIME y SHAP

La interpretabilidad en los modelos de aprendizaje automático (ML) y aprendizaje profundo (DL) nos ayuda a ver el opaco funcionamiento interno de estos modelos avanzados. Explicaciones locales interpretables independientes del modelo (LIME) y Explicaciones de aditivos SHapley (SHAP) son dos de esas técnicas de interpretabilidad convencionales.

Interpretabilidad

LIME, por ejemplo, rompe la complejidad mediante la creación de modelos sustitutos locales más simples que se aproximan al comportamiento del modelo original en torno a una entrada específica. Al hacer esto, LIME ayuda a comprender cómo las características individuales influyen en las predicciones de modelos complejos, proporcionando esencialmente una explicación "local" de por qué un modelo tomó una determinada decisión. Es particularmente útil para usuarios no técnicos, ya que traduce el complejo proceso de toma de decisiones de los modelos en términos más comprensibles.

Interpretabilidad independiente del modelo del aprendizaje automático (LIME) Fuente

SHAP, por otro lado, se inspira en la teoría de juegos, específicamente en el concepto de valores de Shapley. Asigna un valor de "importancia" a cada característica, indicando cuánto contribuye cada característica a la diferencia entre la predicción real y la predicción de referencia (la predicción promedio de todas las entradas). La fortaleza de SHAP radica en su coherencia y capacidad para proporcionar una perspectiva global: no sólo explica las predicciones individuales sino que también brinda información sobre el modelo en su conjunto. Esto es especialmente valioso en los modelos de aprendizaje profundo, donde las capas interconectadas y numerosos parámetros a menudo hacen que el proceso de predicción parezca un viaje a través de un laberinto. SHAP desmitifica esto cuantificando la contribución de cada característica, ofreciendo un mapa más claro de las vías de toma de decisiones del modelo.

FORMA (Fuente)

Tanto LIME como SHAP se han convertido en herramientas esenciales en el ámbito de la IA y el aprendizaje automático, abordando la necesidad crítica de transparencia y confiabilidad. A medida que continuamos integrando la IA más profundamente en varios sectores, la capacidad de interpretar y comprender estos modelos se convierte no solo en una necesidad técnica sino en un requisito fundamental para el desarrollo ético y responsable de la IA. Estas técnicas representan avances significativos para desentrañar las complejidades de los modelos ML y DL, transformándolos de "cajas negras" inescrutables en sistemas comprensibles cuyas decisiones y comportamientos pueden entenderse, confiarse y utilizarse de manera efectiva.

La escala y la complejidad de los LLM

La escala de estos modelos aumenta su complejidad. Tomemos como ejemplo el GPT-3, con sus 175 mil millones de parámetros, y los modelos más nuevos con billones. Cada parámetro interactúa de maneras intrincadas dentro de la red neuronal, contribuyendo a capacidades emergentes que no son predecibles examinando componentes individuales únicamente. Esta escala y complejidad hacen que sea casi imposible comprender plenamente su lógica interna, lo que plantea un obstáculo a la hora de diagnosticar sesgos o comportamientos no deseados en estos modelos.

La compensación: escala versus interpretabilidad

Reducir la escala de los LLM podría mejorar la interpretabilidad, pero a costa de sus capacidades avanzadas. La escala es lo que permite comportamientos que los modelos más pequeños no pueden lograr. Esto presenta un equilibrio inherente entre escala, capacidad e interpretabilidad.

Impacto del problema de la caja negra de LLM

1. Toma de decisiones defectuosa

La opacidad en el proceso de toma de decisiones de LLM como GPT-3 o BERT puede generar sesgos y errores no detectados. En campos como la atención médica o la justicia penal, donde las decisiones tienen consecuencias de gran alcance, la incapacidad de auditar la solidez ética y lógica de los LLM es una preocupación importante. Por ejemplo, un LLM de diagnóstico médico que se base en datos obsoletos o sesgados puede hacer recomendaciones perjudiciales. De manera similar, los LLM en los procesos de contratación pueden perpetuar inadvertidamente los sesgos de género. Por lo tanto, la naturaleza de la caja negra no sólo oculta fallas sino que potencialmente puede amplificarlas, lo que requiere un enfoque proactivo para mejorar la transparencia.

2. Adaptabilidad limitada en contextos diversos

La falta de conocimiento del funcionamiento interno de los LLM restringe su adaptabilidad. Por ejemplo, un LLM de contratación podría ser ineficaz a la hora de evaluar candidatos para un puesto que valora las habilidades prácticas por encima de las calificaciones académicas, debido a su incapacidad para ajustar sus criterios de evaluación. De manera similar, un LLM médico podría tener dificultades con el diagnóstico de enfermedades raras debido a desequilibrios en los datos. Esta inflexibilidad resalta la necesidad de transparencia para recalibrar los LLM para tareas y contextos específicos.

3. Sesgos y lagunas de conocimiento

El procesamiento de una gran cantidad de datos de entrenamiento por parte de los LLM está sujeto a las limitaciones impuestas por sus algoritmos y arquitecturas de modelos. Por ejemplo, un LLM médico podría mostrar sesgos demográficos si se capacita en conjuntos de datos desequilibrados. Además, el dominio de un LLM en temas específicos podría ser engañoso y generar resultados incorrectos y demasiado confiados. Para abordar estos sesgos y lagunas de conocimiento se requiere algo más que datos adicionales; Requiere un examen de la mecánica de procesamiento del modelo.

4. Responsabilidad legal y ética

La naturaleza oscura de los LLM crea un área legal gris con respecto a la responsabilidad por cualquier daño causado por sus decisiones. Si un LLM en un entorno médico brinda consejos incorrectos que provocan daños al paciente, determinar la responsabilidad se vuelve difícil debido a la opacidad del modelo. Esta inseguridad jurídica plantea riesgos para las entidades que implementan LLM en áreas sensibles, lo que subraya la necesidad de una gobernanza clara y transparencia.

5. Problemas de confianza en aplicaciones confidenciales

Para los LLM utilizados en áreas críticas como atención médica y finanzas, la falta de transparencia socava su confiabilidad. Los usuarios y reguladores deben asegurarse de que estos modelos no alberguen sesgos ni tomen decisiones basadas en criterios injustos. Verificar la ausencia de sesgos en los LLM requiere una comprensión de sus procesos de toma de decisiones, enfatizando la importancia de la explicabilidad para el despliegue ético.

6. Riesgos con Datos Personales

Los LLM requieren datos de capacitación extensos, que pueden incluir información personal confidencial. La naturaleza de caja negra de estos modelos genera preocupación sobre cómo se procesan y utilizan estos datos. Por ejemplo, un LLM médico capacitado en registros de pacientes plantea preguntas sobre la privacidad y el uso de los datos. Garantizar que los datos personales no sean utilizados indebidamente ni explotados requiere procesos transparentes de manejo de datos dentro de estos modelos.

Soluciones emergentes para la interpretabilidad

Para abordar estos desafíos, se están desarrollando nuevas técnicas. Estos incluyen métodos de aproximación contrafactuales (CF). El primer método consiste en pedirle a un LLM que cambie un concepto de texto específico mientras mantiene constantes otros conceptos. Este enfoque, aunque eficaz, requiere muchos recursos en el momento de la inferencia.

El segundo enfoque implica la creación de un espacio de integración dedicado guiado por un LLM durante la formación. Este espacio se alinea con un gráfico causal y ayuda a identificar coincidencias que se aproximan a los CF. Este método requiere menos recursos en el momento de la prueba y se ha demostrado que explica eficazmente las predicciones del modelo, incluso en LLM con miles de millones de parámetros.

Estos enfoques resaltan la importancia de las explicaciones causales en los sistemas de PNL para garantizar la seguridad y establecer confianza. Las aproximaciones contrafácticas proporcionan una forma de imaginar cómo cambiaría un texto determinado si un determinado concepto en su proceso generativo fuera diferente, lo que ayuda en la estimación práctica del efecto causal de conceptos de alto nivel en modelos de PNL.

Análisis profundo: métodos de explicación y causalidad en los LLM

Herramientas de sondeo e importancia de funciones

El sondeo es una técnica utilizada para descifrar qué codifican las representaciones internas en los modelos. Puede ser supervisado o no supervisado y tiene como objetivo determinar si conceptos específicos están codificados en ciertos lugares de una red. Si bien son efectivas hasta cierto punto, las investigaciones no logran proporcionar explicaciones causales, como lo destacan Geiger et al. (2021).

Las herramientas de importancia de características, otra forma de método de explicación, a menudo se centran en características de entrada, aunque algunos métodos basados en gradientes extienden esto a estados ocultos. Un ejemplo es el método de gradientes integrados, que ofrece una interpretación causal mediante la exploración de datos de referencia (contrafactuales, CF). A pesar de su utilidad, estos métodos todavía tienen dificultades para conectar sus análisis con conceptos del mundo real más allá de las simples propiedades de entrada.

Métodos basados en intervenciones

Los métodos basados en intervenciones implican modificar entradas o representaciones internas para estudiar los efectos sobre el comportamiento del modelo. Estos métodos pueden crear estados de CF para estimar los efectos causales, pero a menudo generan entradas o estados de red inverosímiles a menos que se controlen cuidadosamente. El modelo proxy causal (CPM), inspirado en el concepto S-learner, es un enfoque novedoso en este ámbito, que imita el comportamiento del modelo explicado bajo las entradas de CF. Sin embargo, la necesidad de un explicador distinto para cada modelo es una limitación importante.

Aproximación de contrafactuales

Los contrafactuales se utilizan ampliamente en el aprendizaje automático para el aumento de datos, lo que implica perturbaciones en varios factores o etiquetas. Estos se pueden generar mediante edición manual, reemplazo heurístico de palabras clave o reescritura automática de texto. Si bien la edición manual es precisa, también requiere muchos recursos. Los métodos basados en palabras clave tienen sus limitaciones y los enfoques generativos ofrecen un equilibrio entre fluidez y cobertura.

Explicaciones fieles

La fidelidad en las explicaciones se refiere a representar con precisión el razonamiento subyacente del modelo. No existe una definición universalmente aceptada de fidelidad, lo que lleva a su caracterización a través de varias métricas como sensibilidad, consistencia, acuerdo de importancia de características, robustez y simulabilidad. La mayoría de estos métodos se centran en explicaciones a nivel de características y, a menudo, combinan la correlación con la causalidad. Nuestro trabajo tiene como objetivo proporcionar explicaciones conceptuales de alto nivel, aprovechando la literatura sobre causalidad para proponer un criterio intuitivo: Orden-Fidelidad.

Hemos profundizado en las complejidades inherentes de los LLM, entendiendo su naturaleza de "caja negra" y los importantes desafíos que plantea. Desde los riesgos de una toma de decisiones defectuosa en áreas sensibles como la atención médica y las finanzas hasta los dilemas éticos que rodean el sesgo y la equidad, la necesidad de transparencia en los LLM nunca ha sido más evidente.

El futuro de los LLM y su integración en nuestra vida diaria y procesos críticos de toma de decisiones depende de nuestra capacidad para hacer que estos modelos no solo sean más avanzados sino también más comprensibles y responsables. La búsqueda de explicabilidad e interpretabilidad no es solo un esfuerzo técnico sino un aspecto fundamental para generar confianza en los sistemas de IA. A medida que los LLM se integren más en la sociedad, crecerá la demanda de transparencia, no solo por parte de los profesionales de la IA sino de todos los usuarios que interactúan con estos sistemas.

Hasta la próxima

Investigador desarrolla un chatbot científico de dominio específico

No Te Lo

Difusión de vídeo estable: modelos de difusión de vídeo latente para grandes conjuntos de datos

Aayush Mittal

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del aprendizaje automático y el aprendizaje profundo. Mi pasión y experiencia me han llevado a contribuir en más de 50 proyectos diversos de ingeniería de software, con un enfoque particular en AI/ML. Mi curiosidad constante también me ha atraído hacia el procesamiento del lenguaje natural, un campo que estoy ansioso por explorar más a fondo.