Líderes de pensamento
O Miragem da IA da China: Como “Código Aberto” Esconde o que Mais Importa

Com os grandes jogadores de tecnologia, como Google, Microsoft e Meta, disputando para dominar o mercado de IA, os principais jogadores da China, Baidu, Moonshot e Alibaba, têm feito manchetes ao lançar seus DeepSeek, ERNIE 4.5, Kimi K2 e Qwen3 modelos de linguagem grande, respectivamente, como código aberto. Essa mudança de lançar modelos de GenAI protegidos e proprietários tem sido recebida como um sinal de que a indústria de IA da China está adotando o poder do código aberto para democratizar o desenvolvimento de IA e impulsionar a inovação.
Como muitos jogadores que anunciam seus produtos como código aberto e até colocam isso nos nomes de suas empresas, no entanto, High Flyer, Baidu e Moonshot não compartilharam realmente peças críticas, como conjuntos de dados, no coração de seus modelos. À medida que esses grandes modelos buscam se tornar commodities em que os desenvolvedores dependem, a transparência do código aberto real que pode ser testado, investigado e iterado é fundamental para criar tecnologia sem viés, ética e benéfica que todos possamos confiar. Todos esses modelos “código aberto” são, na verdade, “peso aberto”, o que significa que podem ser baixados e usados, mas não podem ser inspecionados de forma significativa sem os dados.
À medida que os jogadores dos EUA, como Open AI e Meta, parecem estar se afastando do código aberto, o convite aberto da Baidu para aproveitar sua suíte gratuitamente disponível de modelos ERNIE 4.5 pode, de fato, impulsionar a inovação e a colaboração com desenvolvedores que buscam criar aplicações menores e poderosas. Ao mesmo tempo, a empresa, que é semelhante ao Google da China, deu a si mesma uma vantagem competitiva, incentivando a adoção e entranhando seus modelos no ecossistema de IA em crescimento.
O mesmo pode ser dito para o DeepSeek, o Kimi K2 de baixo preço e o Qwen3 atualizado – que ostenta benchmarks que desafiam modelos fechados, como Claude Opus 4 e GPT-4o-0327.
Esses jogadores de IA se posicionaram bem na corrida para se tornar o modelo de commodity de escolha, e a última atualização inovadora do Qwen3 foi até inspirada no feedback da comunidade de código aberto.
Como muitos que anunciam seus grandes modelos de IA como código aberto, no entanto, a comunidade de IA chinesa não está compartilhando realmente os dados ou outras peças críticas de seus sistemas de IA. Em vez disso, eles estão pedindo aos desenvolvedores globais que depositem sua fé cega em modelos que não podem realmente entender ou investigar.
Apostando no Futuro com Modelos de IA de Código Aberto Commodity
Quando o iPhone explodiu no mercado em 2007, alguns supuseram que o Mac dominaria o jogo de smartphones com o iOS, mas a participação em código aberto é integral para as startups, enquanto também impulsiona o crescimento empresarial e econômico em todo o mundo – e o Android, uma startup adquirida pelo Google em 2005, seguiu esse caminho para a vitória.
Ao lançar software de código aberto que poderia ser visto, modificado, adotado e compartilhado, o Android convidou acadêmicos, desenvolvedores e até concorrentes a colaborar no software. Isso acelerou o processo de inovação, democratizou o campo de jogo e, eventualmente, reduziu os preços. O Android entrou no mercado um ano após o primeiro iPhone e, no início deste ano, ostentava 71,88 por cento do mercado global para 27,65 por cento do iOS.
Em uma revolução tecnológica que pareceu acontecer da noite para o dia, os smartphones se tornaram ubíquos e, mesmo que as melhorias de software, hardware e interface do usuário continuem, a indústria cresceu muito além de tentar revolucionar a forma como os smartphones funcionam. Com os telefones celulares agora uma commodity, a inovação em questão hoje está nos aplicativos que rodam neles, e, para serem concorrentes, os fornecedores de smartphones devem manter um ecossistema que convida os desenvolvedores.
Não três anos após o lançamento do ChatGPT, a indústria de IA se encontra em um ponto semelhante. Cada jogador na indústria global de IA está tentando fazer com que seus modelos se tornem o próximo Android ou até o iOS, e, ao ir para o código aberto com os modelos DeepSeek, ERNIE 4.5 e Kimi K2, os inovadores chineses estão tentando apostar no ecossistema em crescimento.
Embora isso possa funcionar a seu favor, no entanto, não fomenta a verdadeira transparência do código aberto que tem sido essencial para criar não apenas inovação, mas inovação que podemos confiar.
O Conjunto de Dados é a Peça Faltante na Maioria do Código Aberto de IA
Com os modelos de IA muito mais complicados para criar e compartilhar do que o software tradicional, o apelo por IA de código aberto completo não é uma ordem pequena. Em vez de apenas um código-fonte simples, os sistemas de IA são compostos por sete componentes – incluindo o código-fonte, parâmetros do modelo, conjunto de dados, hiperparâmetros, código-fonte de treinamento, geração de números aleatórios e estruturas de software.
Cada peça deve funcionar em conjunto para que um modelo entregue os resultados desejados, o que significa que os desenvolvedores precisam de visibilidade total para compartilhar, modificar e adotar um sistema e entender o que está acontecendo. Com a reprodutibilidade como a base do método científico, no entanto, a indústria de IA tem o hábito de usar o termo código aberto para se referir a lançamentos gratuitos ou de baixo custo que são disponibilizados com acesso a algumas peças do quebra-cabeça.
A Baidu, por exemplo, disponibilizou gratuitamente dez modelos ERNIE 4.5. Junto com a compartilhamento do modelo e dos parâmetros, a empresa também disponibilizou o código aberto ERNIEKit e as ferramentas de implantação FastDeploy. Essas permitem que os desenvolvedores construam aplicações de IA poderosas, fornecendo capacidades de nível industrial, fluxos de treinamento e inferência eficientes em recursos e compatibilidade com vários hardwares.
Em outras palavras, a Baidu forneceu aos desenvolvedores ferramentas emocionais que os capacitam a liberar a inovação mais rapidamente, o que eles esperam que, por sua vez, os incentive a escolher ERNIE 4.5 em vez da concorrência.
Os desenvolvedores que utilizam o ERNIE 4.5, no entanto, estão sendo solicitados a confiar cegamente no modelo, porque a Baidu manteve muito escondido, incluindo os conjuntos de dados que informam e ensinam seus modelos.
O Poder dos Modelos de IA de Código Aberto Transparente
Embora cada peça do quebra-cabeça de IA seja crítica para fazer com que um modelo funcione, 80 por cento dos projetos de IA falham, e os dados estão no coração do problema. Conjuntos de dados imprecisos, incompletos e tendenciosos levam a modelos que não se comportam de forma previsível ou desejada.
O vídeo recentemente lançado do acidente fatal de 2023 do Tesla Full-Self-Driving (FSD), por exemplo, expôs o pior cenário do que pode acontecer quando um conjunto de dados e modelo falham. À medida que o Tesla Model Y acelerava em direção a um sol brilhante e baixo, o sistema parcialmente automatizado não pôde entender ou reagir adequadamente ao que suas câmeras estavam vendo – ou não estavam vendo. Enquanto os carros dirigidos por humanos desaceleravam e se afastavam, a confusão do FSD resultou na morte de uma mulher.
Esse falha devastadora refletiu dados visuais incompletos, bem como a falta de um mecanismo de segurança que levasse em conta esses pontos cegos. Quando os desenvolvedores não têm visão para seus dados, não podem ver como eles estão interagindo com o modelo, o que significa que não podem descobrir esses erros e iterar para um desempenho robusto.
Ainda mais preocupante, sem os dados que impulsionam o modelo, eles são forçados a confiar nele cegamente.
Quando os conjuntos de dados são de código aberto, no entanto, a comunidade de IA provou que irá descobrir questões problemáticas, como fez ao descobrir mais de 1.000 URLs contendo Material de Abuso Sexual Infantil verificado no LAION 5B. Com o conjunto de dados usado para os modelos de geração de texto para imagem de IA sendo fundamental na criação de aplicativos como Stable Diffusion e Midjourney, teria sido devastador para a indústria de IA se os usuários começassem a produzir imagens fotorealistas ilícitas. Em vez disso, a natureza aberta desse conjunto de dados permitiu que a comunidade descobrisse o conteúdo perigoso e motivasse uma solução, Liaison B.
Além disso, grande parte daquele primeiro conjunto de dados foi extraída da web scraping realizada pelo enorme Common Crawl, que também foi utilizado para os modelos ChatGPT e LLAMA. Mesmo que os crawlers de IA continuem a levantar preocupações sobre direitos autorais, privacidade e rótulos tendenciosos e racistas, no entanto, os desenvolvedores na comunidade de IA estão trabalhando em maneiras de limpar peças do conjunto de dados de código aberto em crescimento do Common Crawl para uso mais seguro.
À medida que os desenvolvedores visam não apenas construir IA poderosa, mas também IA que possamos confiar, tanto os usuários quanto a indústria são protegidos pela transparência e colaboração do código aberto real.
Adotando o Caminho do Código Aberto
Com muitos ainda céticos sobre essa tecnologia em crescimento, a corrida para se tornar o iOS ou Android dos grandes modelos de IA de commodity está em andamento – e, à medida que a comunidade global de IA literalmente constrói o que se tornará o padrão para o futuro e os sistemas de IA já estão dirigindo carros e oferecendo avaliações médicas, estabelecer a confiança criando IA imparcial, confiável e segura nunca foi mais crítico.
Com a comunidade de IA chinesa tentando se posicionar como os campeões da inovação aberta, o caminho para a IA segura só é encontrado na transparência do código aberto real que foi comprovado por décadas de inovação de software. Jogar o termo em sistemas que não compartilham peças críticas, como dados, não permite que os desenvolvedores investiguem, repliquem e iterem. Embora o apelo dos modelos prontamente disponíveis, como DeepSeek, ERNIE 4.5, Kimi K2 e Qwen3, seja inegável, os desenvolvedores que os utilizam trocam a transparência que fomenta a colaboração e a inovação por conveniência.
A comunidade de IA deve escolher: abraçar a transparência radical por meio do código aberto genuíno ou arriscar construir os sistemas críticos de amanhã em caixas pretas de hoje.












