talón El futuro de la IA generativa es la ventaja - Unite.AI
Contáctanos

Líderes del pensamiento

El futuro de la IA generativa es la ventaja

mm

Publicado

 on

La llegada de ChatGPT y IA generativa En general, es un momento decisivo en la historia de la tecnología y se compara con los albores de Internet y los teléfonos inteligentes. La IA generativa ha demostrado un potencial ilimitado en su capacidad para mantener conversaciones inteligentes, aprobar exámenes, generar programas/códigos complejos y crear imágenes y vídeos llamativos. Si bien las GPU ejecutan la mayoría de los modelos Gen AI en la nube (tanto para entrenamiento como para inferencia), esta no es una solución escalable a largo plazo, especialmente para la inferencia, debido a factores que incluyen costo, potencia, latencia, privacidad y seguridad. Este artículo aborda cada uno de estos factores junto con ejemplos motivadores para llevar las cargas de trabajo informáticas de Gen AI al límite.

La mayoría de las aplicaciones se ejecutan en procesadores de alto rendimiento, ya sea en dispositivos (por ejemplo, teléfonos inteligentes, computadoras de escritorio, portátiles) o en centros de datos. A medida que aumenta la proporción de aplicaciones que utilizan IA, estos procesadores con solo CPU son inadecuados. Además, la rápida expansión de las cargas de trabajo de IA generativa está impulsando una demanda exponencial de servidores habilitados para IA con GPU costosas y que consumen mucha energía, lo que a su vez está elevando los costos de infraestructura. Estos servidores habilitados para IA pueden costar más de 7 veces el precio de un servidor normal y las GPU representan el 80% de este costo adicional.

Además, un servidor basado en la nube consume entre 500 W y 2000 W, mientras que un servidor habilitado para IA consume entre 2000 W y 8000 W: ¡cuatro veces más! Para admitir estos servidores, los centros de datos necesitan módulos de refrigeración adicionales y actualizaciones de infraestructura, que pueden ser incluso superiores a la inversión en computación. Los centros de datos ya consumen 4 TWH al año, casi el 1% del consumo total de energía mundial Si las tendencias de adopción de la IA continúan, los centros de datos podrían utilizar hasta el 5% de la energía mundial para 2030. Además, existe una inversión sin precedentes en los centros de datos de IA generativa. Se estima que los centros de datos consumirán hasta 500 mil millones de dólares para gastos de capital para 2027, impulsado principalmente por los requisitos de infraestructura de IA.

El consumo de electricidad de los centros de datos, que ya asciende a 300 TwH, aumentará significativamente con la adopción de la IA generativa.

El costo de la computación de la IA y el consumo de energía impedirán la adopción masiva de la IA generativa. Los desafíos de escala se pueden superar trasladando la computación de IA al borde y utilizando soluciones de procesamiento optimizadas para cargas de trabajo de IA. Con este enfoque, el cliente también obtiene otros beneficios, como latencia, privacidad, confiabilidad y una mayor capacidad.

Compute sigue los datos hasta el borde

Desde hace una década, cuando la IA surgió del mundo académico, el entrenamiento y la inferencia de modelos de IA se han producido en la nube/centro de datos. Dado que gran parte de los datos se generan y consumen en el borde (especialmente el vídeo), sólo tenía sentido trasladar la inferencia de los datos al borde, mejorando así el costo total de propiedad (TCO) para las empresas debido a la reducción de los costos de red y computación. Si bien los costos de inferencia de IA en la nube son recurrentes, el costo de la inferencia en el borde es un gasto único de hardware. Básicamente, aumentar el sistema con un procesador Edge AI reduce los costos operativos generales. Al igual que la migración de cargas de trabajo de IA convencionales al Edge (por ejemplo, dispositivos, dispositivos), las cargas de trabajo de IA generativa seguirán su ejemplo. Esto supondrá importantes ahorros para las empresas y los consumidores.

El paso al borde, junto con un acelerador de IA eficiente para realizar funciones de inferencia, también ofrece otros beneficios. El más importante de ellos es la latencia. Por ejemplo, en aplicaciones de juegos, los personajes no jugadores (NPC) se pueden controlar y mejorar mediante IA generativa. Al utilizar modelos LLM que se ejecutan en aceleradores de inteligencia artificial de vanguardia en una consola de juegos o PC, los jugadores pueden darles a estos personajes objetivos específicos, para que puedan participar de manera significativa en la historia. La baja latencia de la inferencia de borde local permitirá que el habla y los movimientos de los NPC respondan a las órdenes y acciones de los jugadores en tiempo real. Esto brindará una experiencia de juego altamente inmersiva de una manera rentable y energéticamente eficiente.

En aplicaciones como la atención médica, la privacidad y la confiabilidad son extremadamente importantes (por ejemplo, evaluación de pacientes, recomendaciones de medicamentos). Los datos y los modelos Gen AI asociados deben estar en las instalaciones para proteger los datos de los pacientes (privacidad) y cualquier interrupción de la red que bloquee el acceso a los modelos de AI en la nube puede ser catastrófica. Un dispositivo Edge AI que ejecuta un modelo Gen AI creado específicamente para cada cliente empresarial (en este caso, un proveedor de atención médica) puede resolver sin problemas los problemas de privacidad y confiabilidad y al mismo tiempo ofrecer menor latencia y costo.

La IA generativa en los dispositivos de vanguardia garantizará una baja latencia en los juegos, preservará los datos de los pacientes y mejorará la confiabilidad de la atención médica.

Muchos modelos Gen AI que se ejecutan en la nube pueden tener cerca de un billón de parámetros; estos modelos pueden abordar eficazmente consultas de propósito general. Sin embargo, las aplicaciones empresariales específicas requieren que los modelos entreguen resultados que sean pertinentes para el caso de uso. Tomemos el ejemplo de un asistente basado en Gen AI creado para tomar pedidos en un restaurante de comida rápida: para que este sistema tenga una interacción perfecta con el cliente, el modelo Gen AI subyacente debe entrenarse en los elementos del menú del restaurante, conociendo también los alérgenos y los ingredientes. . El tamaño del modelo se puede optimizar mediante el uso de un modelo de lenguaje grande (LLM) de superconjunto para entrenar un LLM relativamente pequeño, de 10 a 30 mil millones de parámetros, y luego utilizar ajustes adicionales con los datos específicos del cliente. Un modelo de este tipo puede ofrecer resultados con mayor precisión y capacidad. Y dado el tamaño más pequeño del modelo, se puede implementar efectivamente en un acelerador de IA en el Edge.

Generación de IA ganará en el borde

Siempre será necesario que Gen AI se ejecute en la nube, especialmente para aplicaciones de uso general como ChatGPT y Claude. Pero cuando se trata de aplicaciones empresariales específicas, como el relleno generativo de Adobe Photoshop o el copiloto de Github, la IA generativa en Edge no es sólo el futuro, sino también el presente. Los aceleradores de IA diseñados específicamente son la clave para que esto sea posible.

Como veterano de Silicon Valley y director ejecutivo de Kinara Inc., Ravi Annavajjhala aporta más de 20 años de experiencia que abarca desarrollo empresarial, marketing e ingeniería, creación de productos tecnológicos de vanguardia y
llevarlos al mercado. En su puesto actual como director ejecutivo de Deep Vision, Ravi se desempeña en
su junta directiva y ha recaudado 50 millones de dólares para llevar el procesador Ara-1 de la empresa de presilicio a
producción a gran escala y aumentar el volumen del procesador de segunda generación, Ara-2. Antes de unirse
Deep Vision, Ravi ocupó puestos de liderazgo ejecutivo en Intel y SanDisk, donde desempeñó funciones clave
para impulsar el crecimiento de los ingresos, desarrollar asociaciones estratégicas y desarrollar hojas de ruta de productos que
lideró la industria con características y capacidades de vanguardia.