Des leaders d'opinion

Le mirage de l'IA chinoise : comment l'« open source » cache l'essentiel

Publié 1 août 2025

Dr Jason Corso, Cofondateur et directeur scientifique, Voxel51

Alors que les grands acteurs de la technologie comme Google, Microsoft et Meta se disputent la domination du marché de l'IA, les géants chinois de l'IA, Baidu, Moonshot et Alibaba ont fait la une des journaux pour avoir publié leurs Recherche profonde, ERNIE 4.5, Kimi K2 et Qwen3 Les grands modèles de langage, respectivement, sont open source. Ce passage à la publication de modèles GenAI protégés et propriétaires a été perçu comme un signe que l'industrie chinoise de l'IA exploite pleinement le potentiel de l'open source pour démocratiser le développement de l'IA et stimuler l'innovation.

Cependant, à l'instar de nombreux acteurs qui vantent leurs offres comme étant open source et l'affichent même dans leur nom, High Flyer, Baidu et Moonshot n'ont pas réellement partagé d'éléments essentiels, comme les jeux de données au cœur de leurs modèles. Alors que ces modèles volumineux cherchent à devenir des produits de base sur lesquels les développeurs peuvent compter, la transparence d'un véritable open source, qui peut être testé, étudié et réitéré, est essentielle pour créer une technologie impartiale, éthique et bénéfique à laquelle nous pouvons tous faire confiance. Tous ces modèles « open source » sont en réalité « open weight », ce qui signifie qu'ils peuvent être téléchargés et utilisés, mais qu'ils ne peuvent être inspectés de manière significative sans les données.

Comme les joueurs américains aiment Ouvrir AI et Meta Bien que Baidu semble s'éloigner de l'open source, l'invitation ouverte de Baidu à exploiter sa suite de modèles ERNIE 4.5, disponible gratuitement, peut effectivement stimuler l'innovation et la collaboration avec les développeurs souhaitant créer des applications plus petites et plus puissantes. Parallèlement, l'entreprise, comparable à Google en Chine, s'est dotée d'un avantage concurrentiel en encourageant l'adoption et en ancrant ses modèles dans l'écosystème florissant de l'IA.

On peut en dire autant de DeepSeek, du Kimi K2 à bas prix et du Qwen3 mis à jour, qui propose des benchmarks qui défient les modèles fermés comme Claude Opus 4 et GPT-4o-0327.

Ces acteurs de l'IA se sont bien positionnés dans la course pour devenir le modèle de commodité de choix et la dernière mise à jour innovante de Qwen3 a même été inspirée par les commentaires de la communauté open source.

Cependant, à l'instar de nombreux promoteurs de l'open source de leur vaste modèle d'IA, la communauté chinoise de l'IA ne partage pas réellement les données ni les autres éléments essentiels de ses systèmes. Elle demande plutôt aux développeurs internationaux d'accorder une confiance aveugle à des modèles qu'ils ne peuvent ni comprendre ni analyser véritablement.

Miser sur l'avenir avec des modèles d'IA open source pour les produits de base

Lorsque l'iPhone a fait irruption sur le marché en 2007, certains pensaient que Mac dominerait le marché des smartphones avec iOS, mais la participation open source est essentielle pour les startups, tout en stimulant la croissance entrepreneuriale et économique dans le monde entier – et Android, une start-up acquise par Google en 2005, a suivi cette voie vers la victoire.

En publiant un logiciel open source consultable, modifiable, adopté et partagé, Android a invité des universitaires, des développeurs et même des concurrents à collaborer sur ce logiciel. Cela a accéléré le processus d'innovation, démocratisé les règles du jeu et, in fine, fait baisser les prix. Android est arrivé sur le marché un an après le premier iPhone et, au début de cette année, détenait 71.88 % du marché mondial contre 27.65 % pour iOS.

Dans une révolution technologique qui a semblé se produire du jour au lendemain, les smartphones sont devenus omniprésents. Malgré les améliorations constantes des logiciels, du matériel et de l'interface utilisateur, l'industrie a largement dépassé le stade de la révolution du fonctionnement des smartphones. Les téléphones portables étant devenus un produit de consommation courante, l'innovation réside aujourd'hui dans les applications qui les utilisent. Pour rester compétitifs, les fournisseurs de smartphones doivent maintenir un écosystème qui encourage les développeurs.

Moins de trois ans après le lancement de ChatGPT, le secteur de l'IA se trouve au bord du gouffre. Tous les acteurs mondiaux de l'IA ambitionnent que leurs modèles deviennent le prochain Android, voire iOS. En adoptant l'open source avec les modèles DeepSeek, ERNIE 4.5 et Kimi K2, les innovateurs chinois cherchent à s'imposer dans un écosystème naissant.

Même si cela pourrait jouer en leur faveur, cela ne favorise pas la véritable transparence de l’open source qui a été essentielle non seulement pour favoriser l’innovation, mais pour favoriser une innovation à laquelle nous pouvons faire confiance.

Les données sont la pièce manquante de la plupart des IA open source

Les modèles d'IA étant bien plus complexes à créer et à partager que les logiciels traditionnels, la nécessité d'une IA entièrement open source est un défi de taille. Au lieu d'un simple code source, les systèmes d'IA sont composés de sept composantes—y compris le code source, les paramètres du modèle, l'ensemble de données, les hyperparamètres, le code source de formation, la génération de nombres aléatoires et les cadres logiciels.

Chaque élément doit fonctionner de concert pour qu'un modèle produise les résultats souhaités. Les développeurs ont donc besoin d'une visibilité totale pour partager, modifier et adopter un système et comprendre ce qui se passe. La reproductibilité étant le fondement de la méthode scientifique, le secteur de l'IA dispose d'un avantage concurrentiel. habitude d'utiliser le terme open source pour désigner des versions gratuites ou à bas prix qui sont mises à disposition avec accès à quelques pièces du puzzle.

Baidu, par exemple, a mis à disposition gratuitement dix modèles ERNIE 4.5. Outre le partage du modèle et des paramètres, l'entreprise a également ouvert le code source d'ERNIEKit et des boîtes à outils de déploiement FastDeploy. Ces outils permettent aux développeurs de créer de puissantes applications d'IA grâce à des fonctionnalités de niveau industriel, des workflows d'apprentissage et d'inférence économes en ressources et une compatibilité multi-matériel.

En d’autres termes, Baidu a fourni aux développeurs des outils passionnants qui leur permettent de libérer l’innovation plus rapidement, ce qui, espèrent-ils, les incitera à choisir ERNIE 4.5 plutôt que la concurrence.

Les développeurs qui utilisent ERNIE 4.5 sont toutefois invités à faire aveuglément confiance au modèle, car Baidu a gardé beaucoup de choses cachées, y compris les ensembles de données qui informent et enseignent ses modèles.

La puissance des modèles d'IA open source transparents

Bien que chaque pièce du puzzle de l’IA soit essentielle au fonctionnement d’un modèle, 80 % des projets d’IA échouent, et les données sont au cœur du problèmeDes ensembles de données inexacts, incomplets et biaisés conduisent à des modèles qui ne se comportent pas de manière prévisible ou comme souhaité.

L'espace vidéo de l'accident mortel d'une Tesla entièrement autonome (FSD) de 2023 récemment publiée, par exemple, a exposé le pire scénario possible lorsqu'un ensemble de données et un modèle sont défaillants. Alors que la Tesla Model Y filait à toute allure sous un soleil couchant éclatant, le système partiellement automatisé n'a pas pu comprendre ni réagir correctement à ce que ses caméras voyaient – ou ne voyaient pas. Alors que les voitures conduites par des humains ralentissaient et se rangeaient sur le bas-côté, la confusion du FSD a entraîné la mort d'une femme.

Cet échec dévastateur reflétait des données visuelles incomplètes, ainsi que l'absence de mécanisme de sécurité à l'origine de ces angles morts. Lorsque les développeurs n'ont aucune visibilité sur leurs données, ils ne peuvent pas voir comment elles interagissent avec le modèle, ce qui les empêche de détecter ces erreurs et d'itérer pour obtenir des performances robustes.

Plus inquiétant encore, sans les données qui alimentent le modèle, ils sont obligés de lui faire aveuglément confiance.

Cependant, lorsque les ensembles de données sont open source, la communauté de l'IA a prouvé qu'elle pouvait éliminer les problèmes troublants, comme elle l'a fait en découvrant plus de 1,000 5 URL contenant du matériel d'abus sexuel d'enfants vérifié à LAION XNUMXB. L'ensemble de données utilisé pour les modèles de conversion de texte en image par l'IA étant fondamental pour la création d'applications comme Stable Diffusion et Midjourney, il aurait été catastrophique pour le secteur de l'IA que les utilisateurs commencent à produire des images photoréalistes illicites. Au contraire, le caractère ouvert de cet ensemble de données a permis à la communauté de découvrir le contenu dangereux et de trouver une solution, a déclaré Liaison B.

De plus, une grande partie de ce premier ensemble de données s'appuyait sur le scraping web réalisé par l'énorme Common Crawl, qui a également été exploité pour les modèles ChatGPT et LLAMA. Les robots d'exploration de l'IA continuent de susciter des inquiétudes concernant la rédaction, la confidentialité et l'étiquetage biaisé et raciste, cependant, les développeurs de la communauté de l'IA sont travailler sur des moyens de nettoyer des morceaux de l'ensemble de données open source croissant de Common Crawl pour une utilisation plus sûre.

Alors que les développeurs visent non seulement à créer une IA puissante, mais également une IA à laquelle nous pouvons faire confiance, les utilisateurs et l’industrie sont protégés par la transparence et la collaboration du véritable open source.

Adopter la voie de l'open source

Alors que beaucoup se méfient encore de cette technologie en plein essor, la course pour devenir l’iOS ou l’Android des grands modèles de produits d’IA est en cours. Alors que la communauté mondiale de l’IA construit littéralement ce qui deviendra la norme pour l’avenir et que les systèmes d’IA conduisent déjà des voitures et proposent des évaluations médicales, établir la confiance en créant une IA impartiale, fiable et sûre n’a jamais été aussi crucial.

Alors que la communauté chinoise de l'IA tente de se positionner comme championne de l'innovation ouverte, la voie vers une IA sûre passe par la transparence d'un véritable open source, éprouvée par des décennies d'innovation logicielle. Apporter ce terme à des systèmes qui ne partagent pas d'éléments critiques comme les données empêche les développeurs d'explorer, de reproduire et d'itérer. Si l'attrait de modèles facilement accessibles comme DeepSeek, ERNIE 4.5, Kimi K2 et Qwen3 est indéniable, les développeurs qui les exploitent troquent la transparence, propice à la collaboration et à l'innovation, contre la commodité.

La communauté de l’IA doit choisir : adopter une transparence radicale grâce à un véritable open source, ou risquer de construire les systèmes critiques de demain sur les boîtes noires d’aujourd’hui.

Rubriques connexes:La Chine open source voxel51

Dr Jason Corso, cofondateur et directeur scientifique de Voxel51

Le Dr Jason Corso est cofondateur et directeur scientifique de voxel51et professeur de robotique, de génie électrique et d'informatique à l'Université du Michigan. Expert en vision par ordinateur, le Dr Corso a consacré plus de 20 ans à la recherche universitaire dans les domaines de la compréhension vidéo, de la robotique et de la science des données.

Unite.AI

Le mirage de l'IA chinoise : comment l'« open source » cache l'essentiel

Miser sur l'avenir avec des modèles d'IA open source pour les produits de base

Les données sont la pièce manquante de la plupart des IA open source

La puissance des modèles d'IA open source transparents

Adopter la voie de l'open source

Tu peux aimer