Leaders d’opinion
DeepSeek : des gains d’efficacité, et non un changement de paradigme dans l’innovation de l’IA
L’excitation récente autour de DeepSeek, un modèle de langage avancé (LLM), est compréhensible étant donné l’amélioration significative de l’efficacité qu’il apporte dans ce domaine. Cependant, certaines réactions à sa sortie semblent interpréter de manière erronée l’ampleur de son impact. DeepSeek représente un bond en avant dans la trajectoire attendue du développement des LLM, mais il ne signale pas un changement révolutionnaire vers l’intelligence artificielle générale (AGI), ni ne marque une transformation soudaine du centre de gravité de l’innovation de l’IA.
Plutôt, la réalisation de DeepSeek est une progression naturelle le long d’un chemin bien tracé – celui d’une croissance exponentielle de la technologie de l’IA. Il ne s’agit pas d’un changement de paradigme disruptif, mais d’un rappel puissant du rythme accéléré du changement technologique.
Les gains d’efficacité de DeepSeek : un bond le long de la trajectoire attendue
Le cœur de l’excitation entourant DeepSeek réside dans ses impressionnantes améliorations d’efficacité. Ses innovations sont en grande partie axées sur le rendement des LLM plus rapide et moins cher, ce qui a des implications significatives pour l’économie et l’accessibilité des modèles d’IA. Cependant, malgré le buzz, ces progrès ne sont pas fondamentalement nouveaux, mais plutôt des affinements des approches existantes.
Dans les années 1990, la création de graphiques informatiques de haute qualité nécessitait des supercalculateurs. Aujourd’hui, les smartphones sont capables de la même tâche. De même, la reconnaissance faciale – autrefois une technologie de niche à coût élevé – est maintenant devenue une fonctionnalité ubiquitaire et bon marché dans les smartphones. DeepSeek s’inscrit dans ce schéma de technologie : une optimisation des capacités existantes qui offre de l’efficacité, mais pas une nouvelle approche révolutionnaire.
Pour ceux qui sont familiers avec les principes de la croissance technologique, ce progrès rapide n’est pas inattendu. La théorie de la singularité technologique, qui postule une accélération des progrès dans des domaines clés comme l’IA, prédit que les avancées deviendront plus fréquentes à mesure que nous nous rapprochons du point de singularité. DeepSeek n’est qu’un moment de cette tendance continue, et son rôle est de rendre les technologies d’IA existantes plus accessibles et efficaces, plutôt que de représenter un saut soudain vers de nouvelles capacités.
Les innovations de DeepSeek : des ajustements architecturaux, et non un saut vers l’AGI
La principale contribution de DeepSeek réside dans l’optimisation de l’efficacité des grands modèles de langage, en particulier grâce à son architecture Mixture of Experts (MoE). MoE est une technique d’apprentissage d’ensemble bien établie qui a été utilisée dans la recherche en IA pendant des années. Ce que DeepSeek a fait particulièrement bien, c’est affiner cette technique, en incorporant d’autres mesures d’efficacité pour minimiser les coûts de calcul et rendre les LLM plus abordables.
- Efficacité des paramètres : la conception MoE de DeepSeek n’active que 37 milliards de ses 671 milliards de paramètres à un moment donné, réduisant les exigences de calcul à seulement 1/18ème de celles des LLM traditionnels.
- Apprentissage par renforcement pour le raisonnement : le modèle R1 de DeepSeek utilise l’apprentissage par renforcement pour améliorer le raisonnement en chaîne de pensée, un aspect essentiel des modèles de langage.
- Formation multi-jeton : la capacité de DeepSeek-V3 à prédire plusieurs morceaux de texte simultanément augmente l’efficacité de la formation.
Ces améliorations font que les modèles DeepSeek sont nettement moins chers à former et à exécuter par rapport à des concurrents comme OpenAI ou Anthropic. Même si cela constitue un progrès significatif pour l’accessibilité des LLM, il s’agit d’un affinement d’ingénierie plutôt que d’une avancée conceptuelle vers l’AGI.
L’impact de l’IA open-source
L’une des décisions les plus notables de DeepSeek a été de rendre ses modèles open-source – une démarcation claire des approches propriétaires et fermées des entreprises comme OpenAI, Anthropic et Google. Cette approche open-source, défendue par des chercheurs en IA comme Yann LeCun de Meta, favorise un écosystème d’IA plus décentralisé où l’innovation peut prospérer grâce au développement collectif.
La raison économique derrière la décision open-source de DeepSeek est également claire. L’IA open-source n’est pas seulement une prise de position philosophique, mais une stratégie commerciale. En rendant sa technologie accessible à un large éventail de chercheurs et de développeurs, DeepSeek se positionne pour bénéficier de services, d’intégrations d’entreprise et d’hébergement évolutif, plutôt que de compter uniquement sur la vente de modèles propriétaires. Cette approche donne à la communauté mondiale de l’IA l’accès à des outils concurrentiels et réduit la mainmise des grandes entreprises technologiques occidentales sur ce domaine.
Le rôle croissant de la Chine dans la course à l’IA
Pour beaucoup, le fait que la percée de DeepSeek provienne de Chine pourrait être surprenant. Cependant, ce développement ne devrait pas être considéré avec surprise ou comme partie d’une compétition géopolitique. Ayant passé des années à observer le paysage de l’IA en Chine, il est clair que le pays a investi massivement dans la recherche en IA, aboutissant à un bassin croissant de talents et d’expertise.
Plutôt que de présenter ce développement comme un défi à la domination occidentale, il devrait être considéré comme un signe de la nature de plus en plus mondiale de la recherche en IA. La collaboration ouverte, et non la compétition nationaliste, est la voie la plus prometteuse vers le développement responsable et éthique de l’AGI. Un effort décentralisé, réparti à l’échelle mondiale, est beaucoup plus susceptible de produire une AGI qui profite à l’humanité tout entière, plutôt qu’à servir les intérêts d’une seule nation ou entreprise.
Les implications plus larges de DeepSeek : regarder au-delà des LLM
Alors que beaucoup de l’excitation autour de DeepSeek tourne autour de son efficacité dans l’espace des LLM, il est crucial de prendre du recul et de considérer les implications plus larges de ce développement.
Malgré leurs capacités impressionnantes, les modèles basés sur les transformateurs comme les LLM sont encore loin d’atteindre l’AGI. Ils manquent de qualités essentielles telles que l’abstraction compositionnelle ancrée et le raisonnement auto-dirigé, qui sont nécessaires pour l’intelligence générale. Même si les LLM peuvent automatiser une large gamme de tâches économiques et s’intégrer dans diverses industries, ils ne représentent pas le cœur du développement de l’AGI.
Si l’AGI doit émerger au cours de la prochaine décennie, il est peu probable qu’elle soit basée uniquement sur l’architecture des transformateurs. Des modèles alternatifs, tels que OpenCog Hyperon ou l’informatique neuromorphique, pourraient être plus fondamentaux pour atteindre une véritable intelligence générale.
La commodification des LLM déplacera les investissements en IA
Les gains d’efficacité de DeepSeek accélèrent la tendance vers la commodification des LLM. À mesure que les coûts de ces modèles continuent de baisser, les investisseurs pourraient commencer à regarder au-delà des architectures LLM traditionnelles pour la prochaine avancée majeure en IA. Nous pourrions voir un déplacement des financements vers des architectures d’AGI qui vont au-delà des transformateurs, ainsi que des investissements dans des matérielles alternatives d’IA, comme les puces neuromorphiques ou les unités de traitement associatif.
La décentralisation façonnera l’avenir de l’IA
Alors que les améliorations d’efficacité de DeepSeek facilitent le déploiement de modèles d’IA, ils contribuent également à la tendance plus large de décentralisation de l’architecture d’IA. Avec un focus sur la confidentialité, l’interopérabilité et le contrôle de l’utilisateur, l’IA décentralisée réduira notre dépendance à l’égard des grandes entreprises technologiques centralisées. Cette tendance est cruciale pour garantir que l’IA serve les besoins d’une population mondiale, plutôt que d’être contrôlée par un petit nombre de joueurs puissants.
La place de DeepSeek dans l’explosion cambrienne de l’IA
En conclusion, même si DeepSeek est un jalon majeur dans l’efficacité des LLM, il ne constitue pas un changement révolutionnaire dans le paysage de l’IA. Plutôt, il accélère les progrès le long d’une trajectoire bien établie. L’impact plus large de DeepSeek se fait sentir dans plusieurs domaines :
- Pression sur les entreprises existantes : DeepSeek défie des entreprises comme OpenAI et Anthropic à repenser leurs modèles d’entreprise et à trouver de nouvelles façons de concurrencer.
- Accessibilité de l’IA : en rendant des modèles de haute qualité plus abordables, DeepSeek démocratise l’accès à la technologie de pointe.
- Concurrence mondiale : le rôle croissant de la Chine dans le développement de l’IA signale la nature de plus en plus mondiale de l’innovation, qui n’est pas limitée à l’Occident.
- Progrès exponentiel : DeepSeek est un exemple clair de la manière dont les progrès rapides en IA deviennent la norme.
Le plus important, cependant, est que DeepSeek sert de rappel que même si l’IA progresse rapidement, la véritable AGI est susceptible d’émerger grâce à de nouvelles approches fondamentales plutôt que par l’optimisation des modèles actuels. Alors que nous nous précipitons vers la Singularité, il est crucial de garantir que le développement de l’IA reste décentralisé, ouvert et collaboratif.
DeepSeek n’est pas l’AGI, mais il représente une étape significative dans le voyage continu vers l’IA transformatrice.












