Leaders d’opinion

Le mirage de l’IA chinois : comment « l’open source » cache ce qui compte le plus

mm

Avec les géants de la technologie comme Google, Microsoft et Meta qui se disputent le marché de l’IA, les entreprises chinoises High Flyer, Baidu, Moonshot et Alibaba ont fait les gros titres en rendant publiques leurs modèles de langage à grande échelle DeepSeek, ERNIE 4.5, Kimi K2 et Qwen3 en tant qu’open source. Ce changement de cap par rapport à la publication de modèles de GenAI gardés et propriétaires a été perçu comme un signe que l’industrie de l’IA chinoise adopte le pouvoir de l’open source pour démocratiser le développement de l’IA et stimuler l’innovation.

Comme de nombreux acteurs qui présentent leurs offres comme open source et même l’intègrent dans leurs noms d’entreprise, cependant, High Flyer, Baidu et Moonshot n’ont pas réellement partagé des éléments critiques comme les jeux de données au cœur de leurs modèles. Alors que ces grands modèles cherchent à devenir des commodités sur lesquelles les développeurs s’appuient, la transparence de l’open source véritable qui peut être testée, investiguée et itérée est cruciale pour créer des technologies non biaisées, éthiques et bénéfiques que nous pouvons tous faire confiance. Tous ces modèles « open source » sont en réalité « open weight », ce qui signifie qu’ils peuvent être téléchargés et utilisés, mais qu’ils ne peuvent pas être inspectés de manière significative sans les données.

Alors que les acteurs américains comme Open AI et Meta semblent s’éloigner de l’open source, l’invitation ouverte de Baidu à exploiter sa suite de modèles ERNIE 4.5 librement disponibles peut en effet stimuler l’innovation et la collaboration avec les développeurs qui cherchent à créer des applications plus petites et puissantes. Dans le même temps, l’entreprise, qui est comparable à Google en Chine, s’est donné un avantage concurrentiel en encourageant l’adoption et en ancrant ses modèles dans l’écosystème de l’IA en plein essor.

On peut en dire autant de DeepSeek, du Kimi K2 à faible coût et de la mise à jour de Qwen3 — qui affiche des références qui défient les modèles fermés comme Claude Opus 4 et GPT-4o-0327.

Ces acteurs de l’IA se sont bien positionnés dans la course pour devenir le modèle de commodité de choix et la dernière mise à jour innovante de Qwen3 a même été inspirée par les commentaires de la communauté open source.

Comme beaucoup de ceux qui présentent leur grand modèle d’IA comme open source, cependant, la communauté de l’IA chinoise ne partage pas réellement les données ou les autres éléments critiques de leurs systèmes d’IA. Au lieu de cela, ils demandent aux développeurs mondiaux de faire confiance aveuglément à des modèles qu’ils ne peuvent pas vraiment comprendre ou investiguer.

Revendiquer l’avenir avec des modèles d’IA open source de commodité

Lorsque l’iPhone a éclaté sur le marché en 2007, certains ont supposé que Mac allait dominer le jeu des smartphones avec iOS, mais la participation à l’open source est intégrale pour les start-ups, tout en stimulant la croissance entrepreneuriale et économique dans le monde entier — et Android, une start-up acquise par Google en 2005, a suivi ce chemin vers la victoire.

En rendant disponible un logiciel open source qui pouvait être vu, modifié, adopté et partagé, Android a invité les universitaires, les développeurs et même les concurrents à collaborer sur le logiciel. Cela a accéléré le processus d’innovation, démocratisé le terrain de jeu et, finalement, a fait baisser les prix. Android est arrivé sur le marché un an après le premier iPhone et, au début de cette année, il a affiché 71,88 pour cent du marché mondial contre 27,65 pour cent pour iOS.

Dans une révolution technologique qui semblait se produire du jour au lendemain, les smartphones sont devenus omniprésents et, même si les améliorations du logiciel, du matériel et de l’interface utilisateur se poursuivent, l’industrie a considérablement dépassé les tentatives de révolutionner la façon dont les smartphones fonctionnent. Avec les téléphones cellulaires devenus une commodité, l’innovation en cours concerne les applications qui s’exécutent sur eux, et pour être des prétendants, les fournisseurs de smartphones doivent maintenir un écosystème qui invite les développeurs.

Moins de trois ans après le lancement de ChatGPT, l’industrie de l’IA se trouve à un tournant similaire. Chaque acteur de l’industrie de l’IA mondiale cherche à ce que ses modèles deviennent le prochain Android ou même iOS, et en rendant disponibles les modèles DeepSeek, ERNIE 4.5 et Kimi K2 en open source, les innovateurs chinois cherchent à revendiquer leur place dans un écosystème naissant.

Bien que cela puisse fonctionner en leur faveur, cependant, cela ne favorise pas la véritable transparence de l’open source qui a été essentielle non seulement pour faire naître l’innovation, mais également pour créer une innovation de confiance.

Les données sont le morceau manquant dans la plupart des IA open source

Avec des modèles d’IA beaucoup plus compliqués à créer et à partager que les logiciels traditionnels, l’appel à une IA open source complète n’est pas une mince affaire. Au lieu d’un simple code source, les systèmes d’IA sont composés de sept composants — y compris le code source, les paramètres du modèle, les jeux de données, les hyperparamètres, le code source d’entraînement, la génération de nombres aléatoires et les cadres logiciels.

Chaque pièce doit fonctionner en concert pour que le modèle produise les résultats souhaités, ce qui signifie que les développeurs ont besoin d’une visibilité complète pour partager, modifier et adopter un système et comprendre ce qui se passe. Avec la reproductibilité comme fondement de la méthode scientifique, cependant, l’industrie de l’IA a l’habitude d’utiliser le terme open source pour désigner des versions gratuites ou à faible coût qui sont mises à disposition avec l’accès à quelques pièces du puzzle.

Baidu, par exemple, a rendu disponibles dix modèles ERNIE 4.5. Avec le partage du modèle et des paramètres, l’entreprise a également open source ERNIEKit et les outils de déploiement FastDeploy. Ceux-ci permettent aux développeurs de créer des applications d’IA puissantes en fournissant des capacités de niveau industriel, des flux de formation et d’inférence efficaces en termes de ressources et une compatibilité multi-matériel.

En d’autres termes, Baidu a fourni aux développeurs des outils passionnants qui les autorisent à libérer l’innovation plus rapidement, ce qui, espèrent-ils, les incitera à choisir ERNIE 4.5 plutôt que la concurrence.

Les développeurs qui utilisent ERNIE 4.5, cependant, sont invités à faire confiance aveuglément au modèle, car Baidu a gardé beaucoup de choses cachées, y compris les jeux de données qui informent et enseignent ses modèles.

Le pouvoir des modèles d’IA open source transparents

Alors que chaque pièce du puzzle d’IA est critique pour faire fonctionner un modèle, 80 pour cent des projets d’IA échouent, et les données sont au cœur du problème. Les ensembles de données inexacts, incomplets et biaisés conduisent à des modèles qui ne se comportent pas de manière prévisible ou souhaitée.

La vidéo de crash de la conduite autonome Tesla Full-Self-Driving (FSD) publiée récemment, par exemple, a exposé le pire scénario possible de ce qui peut se produire lorsque les données et le modèle sont défaillants. Alors que la Tesla Model Y a accéléré dans un soleil couchant vif, le système partiellement automatisé n’a pas pu comprendre ou réagir de manière appropriée à ce que ses caméras voyaient — ou ne voyaient pas. Alors que les voitures conduites par des humains ont ralenti et se sont arrêtées, la confusion de la FSD a abouti à la mort d’une femme.

Cette défaillance dévastatrice a reflété des données visuelles incomplètes, ainsi que le manque d’un mécanisme de sécurité qui prenait en compte de tels angles morts. Lorsque les développeurs n’ont pas de visibilité sur leurs données, ils ne peuvent pas découvrir de telles erreurs et itérer pour une performance robuste.

Encore plus inquiétant, sans les données qui alimentent le modèle, ils sont contraints de lui faire confiance aveuglément.

Lorsque les ensembles de données sont open source, cependant, la communauté de l’IA a prouvé qu’elle allait mettre au jour les problèmes troublants, comme elle l’a fait en découvrant plus de 1 000 URL contenant des contenus de violence sexuelle contre les enfants dans LAION 5B. Avec l’ensemble de données utilisé pour les modèles de génération d’images de texte à l’IA étant fondamental pour créer des applications comme Stable Diffusion et Midjourney, il aurait été dévastateur pour l’industrie de l’IA si les utilisateurs commençaient à produire des images photoréalistes illicites. Au lieu de cela, la nature ouverte de cet ensemble de données a permis à la communauté de découvrir le contenu dangereux et de motiver une solution, Liaison B.

En outre, une grande partie de cet ensemble de données initial provenait du web scraping effectué par le gigantesque Common Crawl, qui a également été utilisé pour les modèles ChatGPT et LLAMA. Même si les crawlers d’IA continuent de soulever des inquiétudes quant à la copie, à la vie privée et à l’étiquetage biaisé et raciste, cependant, les développeurs de la communauté de l’IA travaillent sur des moyens de nettoyer les pièces de l’ensemble de données open source de Common Crawl pour une utilisation plus sûre.

Alors que les développeurs visent non seulement à construire une IA puissante, mais également une IA de confiance, à la fois les utilisateurs et l’industrie sont protégés par la transparence et la collaboration de l’open source véritable.

Embrasser le chemin de l’open source

Avec beaucoup de personnes encore méfiantes à l’égard de cette technologie émergente, la course pour devenir l’iOS ou l’Android des grands modèles d’IA de commodité est en cours — et alors que la communauté mondiale de l’IA construit littéralement ce qui deviendra la norme pour l’avenir et que les systèmes d’IA sont déjà à la conduite des voitures et offrent des évaluations médicales, établir la confiance en créant une IA non biaisée, fiable et sûre a jamais été plus critique.

Avec la communauté de l’IA chinoise qui tente de se positionner comme les champions de l’innovation ouverte, le chemin vers une IA sûre ne se trouve que dans la transparence de l’open source véritable qui a été prouvée à travers des décennies d’innovation logicielle. Jeter le terme sur des systèmes qui ne partagent pas des éléments critiques comme les données ne permet pas aux développeurs d’enquêter, de reproduire et d’itérer. Alors que l’attrait de modèles prêts à l’emploi comme DeepSeek, ERNIE 4.5, Kimi K2 et Qwen3 est indéniable, les développeurs qui les utilisent échangent la transparence qui favorise la collaboration et l’innovation pour la commodité.

La communauté de l’IA doit choisir : embrasser la transparence radicale à travers un open source véritable, ou risquer de construire les systèmes critiques de demain sur les boîtes noires d’aujourd’hui.

Le Dr Jason Corso est co-fondateur et directeur des sciences chez Voxel51, et professeur de robotique et d'ingénierie électrique et informatique à l'Université du Michigan. Un vétéran dans le domaine de la vision par ordinateur, le Dr Corso a consacré plus de 20 ans à la recherche académique dans les domaines de la compréhension de la vidéo, de la robotique et de la science des données.