Inteligencia artificial

El Problema de la Caja Negra en LLMs: Desafíos y Soluciones Emergentes

mm
black box model LLM

El aprendizaje automático, un subconjunto de la inteligencia artificial, implica tres componentes: algoritmos, datos de entrenamiento y el modelo resultante. Un algoritmo, esencialmente un conjunto de procedimientos, aprende a identificar patrones a partir de un gran conjunto de ejemplos (datos de entrenamiento). La culminación de este entrenamiento es un modelo de aprendizaje automático. Por ejemplo, un algoritmo entrenado con imágenes de perros resultaría en un modelo capaz de identificar perros en imágenes.

La Caja Negra en el Aprendizaje Automático

En el aprendizaje automático, cualquiera de los tres componentes —algoritmo, datos de entrenamiento o modelo— puede ser una caja negra. Aunque los algoritmos suelen ser de conocimiento público, los desarrolladores pueden elegir mantener el modelo o los datos de entrenamiento en secreto para proteger la propiedad intelectual. Esta oscuridad hace que sea desafiante entender el proceso de toma de decisiones de la inteligencia artificial.

Las cajas negras de la inteligencia artificial son sistemas cuyos mecanismos internos permanecen opacos o invisibles para los usuarios. Los usuarios pueden ingresar datos y recibir salidas, pero la lógica o el código que produce la salida permanece oculto. Esta es una característica común en muchos sistemas de inteligencia artificial, incluidos modelos generativos avanzados como ChatGPT y DALL-E 3.

Los LLM como GPT-4 presentan un desafío significativo: sus mecanismos internos son en gran medida opacos, lo que los convierte en “cajas negras”. Esta opacidad no es solo un rompecabezas técnico; plantea preocupaciones de seguridad y ética en el mundo real. Por ejemplo, si no podemos discernir cómo estos sistemas llegan a conclusiones, ¿podemos confiar en ellos en áreas críticas como diagnósticos médicos o evaluaciones financieras?

Explorando las Técnicas de LIME y SHAP

La interpretabilidad en los modelos de aprendizaje automático (ML) y aprendizaje profundo (DL) nos permite ver en los mecanismos internos opacos de estos modelos avanzados. Explicaciones Locales Interpretativas Agnósticas del Modelo (LIME) y Explicaciones Aditivas de Shapley (SHAP) son dos técnicas de interpretabilidad de este tipo.

Interpretability

Interpretability

LIME, por ejemplo, descompone la complejidad creando modelos sustitutos más simples y locales que aproximan el comportamiento del modelo original alrededor de una entrada específica. Al hacer esto, LIME ayuda a entender cómo las características individuales influyen en las predicciones de modelos complejos, esencialmente proporcionando una ‘explicación local’ de por qué un modelo tomó una determinada decisión. Es particularmente útil para usuarios no técnicos, ya que traduce el intrincado proceso de toma de decisiones de los modelos en términos más comprensibles.

Model-Agnostic Interpretability of Machine Learning

Model-Agnostic Interpretability of Machine Learning (LIME) Source

SHAP, por otro lado, toma inspiración de la teoría de juegos, específicamente del concepto de valores de Shapley. Asigna un valor de ‘importancia’ a cada característica, indicando cuánto contribuye cada característica a la diferencia entre la predicción real y la predicción de referencia (la predicción promedio en todos los inputs). La fuerza de SHAP radica en su coherencia y capacidad para proporcionar una perspectiva global – no solo explica predicciones individuales, sino que también ofrece insights en el modelo en su conjunto. Esto es especialmente valioso en modelos de aprendizaje profundo, donde las capas interconectadas y los numerosos parámetros a menudo hacen que el proceso de predicción parezca un viaje a través de un laberinto. SHAP desmitifica esto cuantificando la contribución de cada característica, ofreciendo un mapa más claro de las vías de toma de decisiones del modelo.

SHAP

SHAP (Source)

Ambas, LIME y SHAP, han surgido como herramientas esenciales en el ámbito de la inteligencia artificial y el aprendizaje automático, abordando la necesidad crítica de transparencia y confiabilidad. A medida que continuamos integrando la inteligencia artificial más profundamente en varios sectores, la capacidad de interpretar y comprender estos modelos se convierte no solo en una necesidad técnica, sino en un requisito fundamental para el desarrollo ético y responsable de la inteligencia artificial. Estas técnicas representan avances significativos en la comprensión de la complejidad de los modelos de aprendizaje automático y aprendizaje profundo, transformándolos de ‘cajas negras’ inescrutables en sistemas comprensibles cuyas decisiones y comportamientos pueden ser entendidos, confiados y utilizados de manera efectiva.

La Escala y Complejidad de los LLM

La escala de estos modelos añade a su complejidad. Tomemos GPT-3, por ejemplo, con sus 175 mil millones de parámetros, y modelos más nuevos con billones. Cada parámetro interactúa de maneras intrincadas dentro de la red neuronal, contribuyendo a capacidades emergentes que no son predecibles examinando componentes individuales por sí solos. Esta escala y complejidad hacen que sea casi imposible comprender completamente su lógica interna, lo que plantea un obstáculo en el diagnóstico de sesgos o comportamientos no deseados en estos modelos.

El Compromiso: Escala vs. Interpretabilidad

Reducir la escala de los LLM podría mejorar la interpretabilidad, pero a costa de sus capacidades avanzadas. La escala es lo que permite comportamientos que los modelos más pequeños no pueden lograr. Esto presenta un compromiso inherente entre escala, capacidad e interpretabilidad.

Impacto del Problema de la Caja Negra de los LLM

1. Toma de Decisiones Defectuosa

La opacidad en el proceso de toma de decisiones de los LLM como GPT-3 o BERT puede llevar a sesgos y errores no detectados. En campos como la salud o la justicia penal, donde las decisiones tienen consecuencias de gran alcance, la incapacidad para auditar los LLM para sondear su solidez ética y lógica es una preocupación mayor. Por ejemplo, un modelo de diagnóstico médico que confía en datos obsoletos o sesgados puede hacer recomendaciones perjudiciales. De manera similar, los LLM en procesos de contratación pueden perpetuar involuntariamente sesgos de género. La naturaleza de caja negra no solo oculta defectos, sino que también puede potencialmente amplificarlos, lo que requiere un enfoque proactivo para mejorar la transparencia.

2. Adaptabilidad Limitada en Contextos Diversos

La falta de visibilidad en los mecanismos internos de los LLM restringe su adaptabilidad. Por ejemplo, un LLM de contratación podría ser ineficiente al evaluar candidatos para un rol que valora habilidades prácticas sobre calificaciones académicas, debido a su incapacidad para ajustar sus criterios de evaluación. De manera similar, un LLM médico podría luchar con diagnósticos de enfermedades raras debido a desequilibrios en los datos. Esta inflexibilidad destaca la necesidad de transparencia para recalibrar los LLM para tareas y contextos específicos.

3. Sesgo y Brechas de Conocimiento

El procesamiento de grandes cantidades de datos de entrenamiento por parte de los LLM está sujeto a las limitaciones impuestas por sus algoritmos y arquitecturas de modelo. Por ejemplo, un LLM médico podría mostrar sesgos demográficos si se entrena con conjuntos de datos desequilibrados. Además, la pericia de un LLM en temas de nicho podría ser engañosa, llevando a salidas incorrectas y confiadas. Abordar estos sesgos y brechas de conocimiento requiere más que solo datos adicionales; requiere un examen de los mecanismos de procesamiento del modelo.

4. Responsabilidad Legal y Ética

La naturaleza opaca de los LLM crea un área gris legal en cuanto a la responsabilidad por cualquier daño causado por sus decisiones. Si un LLM en un entorno médico proporciona consejos defectuosos que llevan a daños a un paciente, determinar la responsabilidad se vuelve difícil debido a la opacidad del modelo. Esta incertidumbre legal plantea riesgos para las entidades que despliegan LLM en áreas sensibles, subrayando la necesidad de una gobernanza y transparencia claras.

5. Problemas de Confianza en Aplicaciones Sensibles

Para los LLM utilizados en áreas críticas como la salud y las finanzas, la falta de transparencia socava su confiabilidad. Los usuarios y reguladores necesitan asegurarse de que estos modelos no alberguen sesgos o tomen decisiones basadas en criterios injustos. Verificar la ausencia de sesgo en los LLM requiere una comprensión de sus procesos de toma de decisiones, enfatizando la importancia de la explicabilidad para el despliegue ético.

6. Riesgos con Datos Personales

Los LLM requieren grandes cantidades de datos de entrenamiento, que pueden incluir información personal sensible. La naturaleza de caja negra de estos modelos plantea preocupaciones sobre cómo se procesa y utiliza esta información. Por ejemplo, un LLM médico entrenado con registros de pacientes plantea preguntas sobre privacidad y uso de datos. Asegurarse de que los datos personales no sean mal utilizados o explotados requiere procesos de manejo de datos transparentes dentro de estos modelos.

Soluciones Emergentes para la Interpretabilidad

Para abordar estos desafíos, se están desarrollando nuevas técnicas. Estas incluyen métodos de aproximación contrafactual (CF). El primer método implica solicitar a un LLM que cambie un concepto de texto específico mientras mantiene constantes otros conceptos. Este enfoque, aunque efectivo, es intensivo en recursos en el momento de inferencia.

El segundo enfoque implica crear un espacio de incrustación dedicado guiado por un LLM durante el entrenamiento. Este espacio se alinea con un grafo causal y ayuda a identificar coincidencias que aproximan CF. Este método requiere menos recursos en el momento de la prueba y se ha demostrado que explica efectivamente las predicciones del modelo, incluso en LLM con miles de millones de parámetros.

Estos enfoques destacan la importancia de explicaciones causales en los sistemas de NLP para garantizar la seguridad y establecer la confianza. Las aproximaciones contrafácticas proporcionan una forma de imaginar cómo cambiaría un texto determinado si un concepto específico en su proceso generativo fuera diferente, ayudando en la estimación práctica del efecto causal de conceptos de alto nivel en los modelos de NLP.

Inmersión Profunda: Métodos de Explicación y Causalidad en LLM

Herramientas de Sondeo y Importancia de Características

El sondeo es una técnica utilizada para descifrar qué representaciones internas en los modelos codifican. Puede ser supervisado o no supervisado y tiene como objetivo determinar si conceptos específicos están codificados en ciertos lugares de la red. Aunque es efectivo hasta cierto punto, las sondas no proporcionan explicaciones causales, como se destaca en Geiger et al. (2021).

Las herramientas de importancia de características, otro tipo de método de explicación, a menudo se centran en características de entrada, aunque algunos métodos basados en gradientes se extienden a estados ocultos. Un ejemplo es el método de Gradientes Integrados, que ofrece una interpretación causal explorando entradas de referencia (contrafácticas, CF). A pesar de su utilidad, estos métodos todavía luchan por conectar sus análisis con conceptos del mundo real más allá de simples propiedades de entrada.

Métodos Basados en Intervenciones

Los métodos basados en intervenciones implican modificar entradas o representaciones internas para estudiar los efectos en el comportamiento del modelo. Estos métodos pueden crear estados contrafácticos para estimar efectos causales, pero a menudo generan entradas o estados de red poco plausibles a menos que se controlen cuidadosamente. El Modelo de Proxy Causal (CPM), inspirado en el concepto del aprendizaje S, es un enfoque novedoso en este ámbito, imitando el comportamiento del modelo explicado bajo entradas contrafácticas. Sin embargo, la necesidad de un explicador distinto para cada modelo es una limitación importante.

Aproximación de Contrafácticos

Los contrafácticos se utilizan ampliamente en el aprendizaje automático para la ampliación de datos, que implica perturbaciones en varios factores o etiquetas. Estos pueden generarse a través de edición manual, reemplazo de palabras clave heurístico o reescritura de texto automática. Si bien la edición manual es precisa, también es intensiva en recursos. Los métodos basados en palabras clave tienen sus limitaciones, y los enfoques generativos ofrecen un equilibrio entre fluidez y cobertura.

Explicaciones Fieles

La fidelidad en las explicaciones se refiere a representar con precisión la lógica subyacente del modelo. No hay una definición universalmente aceptada de fidelidad, lo que lleva a su caracterización a través de varias métricas como Sensibilidad, Coherencia, Acuerdo de Importancia de Características, Robustez y Simulabilidad. La mayoría de estos métodos se centran en explicaciones a nivel de características y a menudo confunden correlación con causalidad. Nuestro trabajo tiene como objetivo proporcionar explicaciones de conceptos de alto nivel, aprovechando la literatura sobre causalidad para proponer un criterio intuitivo: Orden-Fidelidad.

Hemos profundizado en las complejidades inherentes de los LLM, comprendiendo su naturaleza de ‘caja negra’ y los desafíos significativos que plantea. Desde los riesgos de toma de decisiones defectuosas en áreas sensibles como la salud y las finanzas hasta las cuandarias éticas que rodean el sesgo y la equidad, la necesidad de transparencia en los LLM nunca ha sido más evidente.

El futuro de los LLM y su integración en nuestra vida diaria y procesos de toma de decisiones críticos depende de nuestra capacidad para hacer que estos modelos no solo sean más avanzados, sino también más comprensibles y responsables. La búsqueda de explicabilidad e interpretabilidad no es solo una empresa técnica, sino un aspecto fundamental de la construcción de la confianza en los sistemas de inteligencia artificial. A medida que los LLM se integran más en la sociedad, la demanda de transparencia crecerá, no solo desde los practicantes de la inteligencia artificial, sino desde cada usuario que interactúa con estos sistemas.

He dedicado los últimos cinco años sumergiéndome en el fascinante mundo de Machine Learning y Deep Learning. Mi pasión y experiencia me han llevado a contribuir a más de 50 proyectos de ingeniería de software diversos, con un enfoque particular en AI/ML. Mi curiosidad en curso también me ha llevado hacia el Procesamiento de Lenguaje Natural, un campo que estoy ansioso por explorar más a fondo.