Connect with us

Inteligencia artificial

Por qué la inferencia de IA, no el entrenamiento, es el próximo gran desafío de ingeniería

mm

Durante la última década, el foco de atención en inteligencia artificial ha sido monopolizado por el entrenamiento. Los avances han provenido en gran medida de clusters de cómputo masivo, modelos de trilliones de parámetros y los miles de millones de dólares invertidos en enseñar a los sistemas a “pensar”. Hemos tratado el desarrollo de IA en gran medida como un proyecto de construcción: construyendo el rascacielos de la inteligencia. Pero ahora que este rascacielos ha sido construido, el verdadero desafío es averiguar cómo facilitar a los millones que necesitan vivir y operar dentro de él simultáneamente. Esto cambia el enfoque de los investigadores y los ingenieros de IA de entrenamiento (el acto de crear inteligencia) a inferencia (el acto de usarla). Mientras que el entrenamiento es un gasto de capital masivo y único (CapEx), la inferencia es un gasto operativo continuo (OpEx) que continúa indefinidamente. A medida que las empresas despliegan agentes que atienden a millones de usuarios las 24 horas del día, están descubriendo una dura realidad: la inferencia no es solo “entrenamiento al revés”. Es un desafío de ingeniería fundamentalmente diferente, y tal vez más difícil.

Por qué los costos de inferencia importan más que nunca

Para entender el desafío de ingeniería, uno debe entender primero el imperativo económico subyacente. En la fase de entrenamiento, la ineficiencia es tolerable. Si una carrera de entrenamiento tarda cuatro semanas en lugar de tres, es una molestia. En la inferencia, sin embargo, la ineficiencia puede ser catastrófica para el negocio. Por ejemplo, entrenar un modelo de frontera podría costar $100 millones. Pero desplegar ese modelo para responder a 10 millones de consultas al día puede superar ese costo en cuestión de meses si no se optimiza. Esto es por lo que estamos presenciando un cambio en el mercado, con inversiones en inferencia proyectadas para superar las inversiones en entrenamiento.

Para los ingenieros, esto cambia los postes de meta. Ya no estamos optimizando para el rendimiento (¿cuán rápido puedo procesar este conjunto de datos masivo?). Estamos optimizando para la latencia (¿cuán rápido puedo devolver un solo token?) y la concurrencia (¿cuántos usuarios puedo atender en una sola GPU?). El enfoque de “fuerza bruta” que dominó la fase de entrenamiento simplemente agregando más cómputos no funciona aquí. No puedes lanzar más H100 a un problema de latencia si el cuello de botella es la anchura de banda de memoria.

El muro de la memoria: el verdadero cuello de botella

La verdad poco conocida sobre la inferencia de Large Language Model (LLM) es que rara vez está limitada por cómputo; está limitada por memoria. Durante el entrenamiento, procesamos datos en lotes masivos, manteniendo las unidades de cómputo de la GPU completamente utilizadas. En la inferencia, especialmente para aplicaciones en tiempo real como chatbots o agentes, las solicitudes llegan secuencialmente. Cada token generado requiere que el modelo cargue sus miles de millones de parámetros desde alta anchura de banda de memoria (HBM) a las unidades de cómputo. Esto es el “Muro de la memoria“. Es como tener un motor de Ferrari (el núcleo de la GPU) atascado en un tráfico congestionado (la anchura de banda de memoria limitada).

Este desafío está llevando a los equipos de ingeniería a repensar la arquitectura del sistema hasta el nivel de silicio. Esto es por lo que estamos viendo el auge de Unidades de procesamiento lineal (LPUs) como las de Groq, y Unidades de procesamiento neural (NPUs) especializadas. Estos chips están diseñados para evitar el cuello de botella de HBM utilizando grandes cantidades de SRAM en el chip, tratando el acceso a la memoria como un flujo de datos continuo en lugar de una simple operación de captura. Para el ingeniero de software, esto señala el fin de la era “predeterminada a CUDA”. Ahora debemos escribir código que sea consciente del hardware, entendiendo exactamente cómo se mueve los datos a través del cable.

La nueva frontera de la eficiencia de IA

Dado que no siempre podemos cambiar el hardware, la próxima frontera de la ingeniería se encuentra en la optimización del software. Aquí es donde están sucediendo algunos de los avances más innovadores. Estamos presenciando un renacimiento de técnicas que están redefiniendo cómo los computadores implementan y ejecutan redes neuronales.

  • Lote continuo: El lote tradicional espera a que se llene un “autobús” antes de partir, lo que introduce retrasos. Lote continuo (pionero por frameworks como vLLM) actúa como un sistema de metro, permitiendo que las nuevas solicitudes se unan o salgan del tren de procesamiento de la GPU en cada iteración. Maximiza el rendimiento sin sacrificar la latencia, resolviendo un problema de programación complejo que requiere una profunda experiencia en nivel de sistema operativo.
  • Decodificación especulativa: Esta técnica emplea un modelo pequeño, rápido y económico para bosquejar una respuesta, mientras que un modelo más grande, más lento y más capaz la verifica en paralelo. Se basa en el hecho de que verificar texto es mucho menos costoso en términos computacionales que generar texto.
  • Administración de caché KV: En conversaciones largas, la “historial” (la caché de clave-valor) crece rápidamente, consumiendo grandes cantidades de memoria de la GPU. Los ingenieros están implementando ahora ” PagedAttention“, una técnica inspirada en la paginación de memoria virtual en sistemas operativos. Esta técnica divide la memoria en fragmentos y la gestiona de manera no contigua.

La complejidad agente

Si la inferencia estándar es difícil, la IA Agente la hace exponencialmente más difícil. Un chatbot estándar es sin estado: el usuario pregunta, la IA responde, el proceso termina. Un agente de IA, sin embargo, tiene un bucle. Planea, ejecuta herramientas, observa los resultados e itera. Desde un punto de vista de ingeniería, esto es una pesadilla. Este cambio arquitectónico introduce varios desafíos fundamentales:

  1. Administración de estado: El motor de inferencia debe mantener el “estado” del proceso de pensamiento del agente a lo largo de múltiples pasos, a menudo durante minutos.
  2. Bucles infinitos: A diferencia de un pase adelante predecible, un agente puede quedar atrapado en un bucle de razonamiento. Ingeniería de “perros guardianes” y “interruptores de circuito” robustos para código probabilístico es un campo completamente nuevo.
  3. Cómputo variable: Una consulta de usuario puede desencadenar una sola llamada de inferencia, mientras que otra puede desencadenar cincuenta. Administrar la carga y la infraestructura de escalado automático cuando cada solicitud lleva una variación extrema exige una clase completamente nueva de lógica de orquestación.

Estamos esencialmente pasando de “servir modelos” a “orquestar arquitecturas cognitivas”.

Llevando la IA a dispositivos cotidianos

Finalmente, los límites de la energía y la latencia de la red inevitablemente forzarán la inferencia al borde. No podemos esperar que cada bombilla inteligente, vehículo autónomo o robot de fábrica envíe sus solicitudes a través de un centro de datos. El desafío de ingeniería aquí es la compresión. ¿Cómo se ajusta un modelo que aprendió de toda la internet a un chip más pequeño que una uña del dedo, que funciona con una batería?

Técnicas como cuantificación (reducir la precisión de 16 bits a 4 bits o incluso 1 bit) y destilación de modelo (enseñar a un modelo de estudiante pequeño a imitar a un modelo de maestro grande) se están convirtiendo en práctica estándar. Pero el verdadero desafío es implementar estos modelos en un ecosistema fragmentado de miles de millones de dispositivos como Android, iOS, Linux integrado, sensores personalizados, cada uno con sus propias limitaciones de hardware. Es el “pesadilla de fragmentación” del desarrollo móvil, multiplicado por la complejidad de las redes neuronales.

La parte inferior

Estamos entrando en la era “Día 2” de la IA Generativa. El Día 1 fue sobre demostrar que la IA podía escribir poesía. El Día 2 es sobre ingeniería, hacer que esa capacidad sea más confiable, asequible y ubicua. Los ingenieros que definirán la próxima década no son necesariamente los que inventan nuevas arquitecturas de modelo. Son los ingenieros de sistemas, los hackers de kernel y los arquitectos de infraestructura que pueden averiguar cómo servir mil millones de tokens por segundo sin derretir la red de energía o arruinar la empresa. La inferencia de IA ya no es solo un detalle de tiempo de ejecución. Es el producto. Y optimizarlo es el próximo gran desafío de ingeniería.

El Dr. Tehseen Zia es un profesor asociado titular en la Universidad COMSATS de Islamabad, con un doctorado en Inteligencia Artificial de la Universidad Técnica de Viena, Austria. Especializado en Inteligencia Artificial, Aprendizaje Automático, Ciencia de Datos y Visión por Computadora, ha hecho contribuciones significativas con publicaciones en revistas científicas reputadas. El Dr. Tehseen también ha liderado varios proyectos industriales como investigador principal y ha servido como consultor de Inteligencia Artificial.