Inteligência artificial

Como a DeepSeek Rompeu a Barreira de Custo com $5,6M

Published December 30, 2024

Updated April 27, 2026

Alex McFarland

A sabedoria convencional da IA sugere que construir grandes modelos de linguagem (LLMs) requer bolsos profundos – geralmente bilhões em investimento. Mas a DeepSeek, uma startup de IA chinesa, acaba de despedaçar esse paradigma com seu último feito: desenvolver um modelo de IA de classe mundial por apenas $5,6 milhões.

O modelo V3 da DeepSeek pode competir com gigantes da indústria como Google’s Gemini e as últimas ofertas da OpenAI, tudo isso enquanto usa uma fração dos recursos de computação típicos. O feito chamou a atenção de muitos líderes da indústria, e o que torna isso particularmente notável é que a empresa conseguiu isso apesar de enfrentar restrições de exportação dos EUA que limitaram seu acesso aos últimos chips Nvidia.

A Economia da Eficiência da IA

Os números contam uma história convincente de eficiência. Enquanto a maioria dos modelos de IA avançados requer entre 16.000 e 100.000 GPUs para treinamento, a DeepSeek conseguiu com apenas 2.048 GPUs executadas por 57 dias. O treinamento do modelo consumiu 2,78 milhões de horas de GPU nas chips H800 da Nvidia – notavelmente modesto para um modelo de 671 bilhões de parâmetros.

Para colocar isso em perspectiva, a Meta precisou de aproximadamente 30,8 milhões de horas de GPU – cerca de 11 vezes mais poder de computação – para treinar seu modelo Llama 3, que na verdade tem menos parâmetros, com 405 bilhões. A abordagem da DeepSeek se assemelha a uma aula de mestre em otimização sob restrições. Trabalhando com GPUs H800 – chips de IA projetados pela Nvidia especificamente para o mercado chinês com capacidades reduzidas – a empresa transformou limitações potenciais em inovação. Em vez de usar soluções prontas para a comunicação de processadores, eles desenvolveram soluções personalizadas que maximizaram a eficiência.

Enquanto os concorrentes continuam a operar sob a suposição de que investimentos maciços são necessários, a DeepSeek está demonstrando que a ingenuidade e a utilização eficiente de recursos podem nivelar o campo de jogo.

Imagem: Artificial Analysis

Engenharia do Impossível

O feito da DeepSeek reside em sua abordagem técnica inovadora, demonstrando que às vezes os avanços mais impactantes vêm de trabalhar dentro de restrições em vez de jogar recursos ilimitados em um problema.

No coração dessa inovação está uma estratégia chamada “auxiliary-loss-free load balancing”. Pense nisso como orquestrar um sistema de processamento paralelo maciço onde tradicionalmente você precisaria de regras complexas e penalidades para manter tudo funcionando suavemente. A DeepSeek virou essa sabedoria convencional de cabeça para baixo, desenvolvendo um sistema que naturalmente mantém o equilíbrio sem a sobrecarga de abordagens tradicionais.

A equipe também pioneira o que chamam de “Multi-Token Prediction” (MTP) – uma técnica que permite que o modelo pense à frente, prevendo vários tokens de uma vez. Na prática, isso se traduz em uma taxa de aceitação impressionante de 85-90% para essas previsões em vários tópicos, entregando velocidades de processamento 1,8 vezes mais rápidas do que as abordagens anteriores.

A arquitetura técnica em si é uma obra-prima de eficiência. O V3 da DeepSeek emprega uma abordagem de mistura de especialistas com 671 bilhões de parâmetros totais, mas aqui está a parte inteligente – ele só ativa 37 bilhões para cada token. Essa ativação seletiva significa que eles obtêm os benefícios de um modelo maciço enquanto mantêm a eficiência prática.

Sua escolha de treinamento de precisão mista FP8 é outro salto à frente. Em vez de aceitar as limitações convencionais da precisão reduzida, eles desenvolveram soluções personalizadas que mantêm a precisão enquanto reduzem significativamente os requisitos de memória e computação.

Efeitos em Ondas no Ecossistema de IA

O impacto do feito da DeepSeek se espalha muito além de apenas um modelo bem-sucedido.

Para o desenvolvimento de IA europeu, esse avanço é particularmente significativo. Muitos modelos avançados não chegam à UE porque empresas como Meta e OpenAI ou não podem ou não querem adaptar-se ao AI Act da UE. A abordagem da DeepSeek mostra que construir IA de ponta não sempre requer clusters de GPU maciços – é mais sobre usar recursos disponíveis de forma eficiente.

Esse desenvolvimento também mostra como as restrições de exportação podem impulsionar a inovação. O acesso limitado da DeepSeek a hardware de ponta a forçou a pensar de forma diferente, resultando em otimizações de software que talvez nunca tivessem surgido em um ambiente rico em recursos. Esse princípio pode redefinir como abordamos o desenvolvimento de IA globalmente.

As implicações de democratização são profundas. Enquanto os gigantes da indústria continuam a queimar bilhões, a DeepSeek criou um modelo para o desenvolvimento de IA eficiente e de baixo custo. Isso pode abrir portas para empresas menores e instituições de pesquisa que anteriormente não podiam competir devido a limitações de recursos.

No entanto, isso não significa que a infraestrutura de computação em larga escala está se tornando obsoleta. A indústria está mudando o foco para a escalabilidade do tempo de inferência – quanto tempo um modelo leva para gerar respostas. À medida que essa tendência continua, recursos computacionais significativos ainda serão necessários, provavelmente até mais ao longo do tempo.

Mas a DeepSeek mudou fundamentalmente a conversa. As implicações de longo prazo são claras: estamos entrando em uma era em que o pensamento inovador e o uso eficiente de recursos podem importar mais do que o simples poder de computação. Para a comunidade de IA, isso significa se concentrar não apenas nos recursos que temos, mas em como usamos criativa e eficientemente.

Unite.AI

Como a DeepSeek Rompeu a Barreira de Custo com $5,6M

A Economia da Eficiência da IA

Engenharia do Impossível

Efeitos em Ondas no Ecossistema de IA

You may like