Inteligencia artificial
Cómo DeepSeek rompió la barrera de costos con $5.6M

La sabiduría convencional de la IA sugiere que construir modelos de lenguaje grande (LLM) requiere bolsillos profundos, típicamente miles de millones en inversión. Pero DeepSeek, una startup de IA china, acaba de romper ese paradigma con su último logro: desarrollar un modelo de IA de clase mundial por solo $5.6 millones.
El modelo V3 de DeepSeek puede competir con gigantes de la industria como Google’s Gemini y las últimas ofertas de OpenAI, todo mientras utiliza una fracción de los recursos de computación típicos. El logro llamó la atención de muchos líderes de la industria, y lo que hace que esto sea particularmente notable es que la empresa lo logró a pesar de enfrentar restricciones de exportación de EE. UU. que limitaron su acceso a los últimos chips Nvidia.
La economía de la IA eficiente
Los números cuentan una historia convincente de eficiencia. Mientras que la mayoría de los modelos de IA avanzados requieren entre 16,000 y 100,000 GPUs para el entrenamiento, DeepSeek logró con solo 2,048 GPUs que funcionaron durante 57 días. El entrenamiento del modelo consumió 2.78 millones de horas de GPU en chips Nvidia H800, lo que es notablemente modesto para un modelo de 671 mil millones de parámetros.
Para poner esto en perspectiva, Meta necesitó aproximadamente 30.8 millones de horas de GPU, aproximadamente 11 veces más de potencia de cálculo, para entrenar su modelo Llama 3, que en realidad tiene menos parámetros con 405 mil millones. El enfoque de DeepSeek se asemeja a una clase magistral en optimización bajo restricciones. Trabajando con GPUs H800, chips de IA diseñados por Nvidia específicamente para el mercado chino con capacidades reducidas, la empresa convirtió las limitaciones potenciales en innovación. En lugar de utilizar soluciones de estantería para la comunicación de procesadores, desarrollaron soluciones personalizadas que maximizaron la eficiencia.
Mientras que los competidores continúan operando bajo la suposición de que las inversiones masivas son necesarias, DeepSeek está demostrando que la ingeniosidad y la utilización eficiente de los recursos pueden nivelar el campo de juego.

Imagen: Artificial Analysis
Ingeniería de lo imposible
El logro de DeepSeek radica en su enfoque técnico innovador, lo que demuestra que a veces los avances más impactantes provienen de trabajar dentro de las restricciones en lugar de arrojar recursos ilimitados a un problema.
En el corazón de esta innovación se encuentra una estrategia llamada “equilibrio de carga libre de pérdida auxiliar”. Piense en ello como orquestar un sistema de procesamiento paralelo masivo donde tradicionalmente necesitaría reglas y penalizaciones complejas para mantener todo funcionando sin problemas. DeepSeek dio la vuelta a esta sabiduría convencional, desarrollando un sistema que mantiene el equilibrio sin la sobrecarga de los enfoques tradicionales.
El equipo también fue pionero en lo que llaman “predicción de múltiples tokens” (MTP), una técnica que permite que el modelo piense con anticipación al predecir múltiples tokens al mismo tiempo. En la práctica, esto se traduce en una tasa de aceptación impresionante del 85-90% para estas predicciones en varios temas, lo que entrega velocidades de procesamiento 1.8 veces más rápidas que los enfoques anteriores.
La arquitectura técnica en sí es una obra maestra de eficiencia. El V3 de DeepSeek emplea un enfoque de mezcla de expertos con 671 mil millones de parámetros totales, pero aquí está la parte astuta: solo activa 37 mil millones para cada token. Esta activación selectiva significa que obtienen los beneficios de un modelo masivo mientras mantienen la eficiencia práctica.
Su elección de marco de entrenamiento de precisión mixta FP8 es otro salto adelante. En lugar de aceptar las limitaciones convencionales de la precisión reducida, desarrollaron soluciones personalizadas que mantienen la precisión mientras reducen significativamente los requisitos de memoria y cálculo.
Efectos de onda en el ecosistema de la IA
El impacto del logro de DeepSeek se extiende mucho más allá de un solo modelo exitoso.
Para el desarrollo de la IA en Europa, este avance es particularmente significativo. Muchos modelos avanzados no llegan a la UE porque empresas como Meta y OpenAI no pueden o no están dispuestas a adaptarse a la Ley de IA de la UE. El enfoque de DeepSeek muestra que construir IA de vanguardia no siempre requiere clusters de GPU masivos, se trata más de utilizar los recursos disponibles de manera eficiente.
Este desarrollo también muestra cómo las restricciones de exportación pueden impulsar la innovación. El acceso limitado de DeepSeek a hardware de alta gama los obligó a pensar de manera diferente, lo que resultó en optimizaciones de software que tal vez nunca hubieran surgido en un entorno rico en recursos. Este principio podría cambiar la forma en que abordamos el desarrollo de la IA a nivel global.
Las implicaciones de democratización son profundas. Mientras que los gigantes de la industria siguen quemando miles de millones, DeepSeek ha creado un plan para el desarrollo de la IA eficiente y rentable. Esto podría abrir puertas para empresas más pequeñas e instituciones de investigación que anteriormente no podían competir debido a las limitaciones de recursos.
Sin embargo, esto no significa que la infraestructura de computación a gran escala esté volviéndose obsoleta. La industria está cambiando su enfoque hacia la escalabilidad del tiempo de inferencia, es decir, el tiempo que tarda un modelo en generar respuestas. A medida que esta tendencia continúa, es probable que se necesiten recursos de cálculo significativos, incluso más a lo largo del tiempo.
Pero DeepSeek ha cambiado fundamentalmente la conversación. Las implicaciones a largo plazo son claras: estamos entrando en una era en la que el pensamiento innovador y el uso eficiente de los recursos podrían importar más que la mera potencia de cálculo. Para la comunidad de la IA, esto significa centrarse no solo en los recursos que tenemos, sino en cómo los utilizamos de manera creativa y eficiente.












