Suivez nous sur

Anthropic abandonne Claude Opus 4.1 et surpasse les benchmarks de codage

Annonces

Anthropic abandonne Claude Opus 4.1 et surpasse les benchmarks de codage

mm

Anthropic lancé Claude Opus 4.1 aujourd'hui, une version améliorée de son modèle d'IA phare qui atteint une précision de 74.5 % sur les tâches de codage du monde réel, établissant un nouveau record de référence tout en conservant le même prix que son prédécesseur.

Cette mise Ă  jour est une dĂ©cision stratĂ©gique anticipĂ©e par l'industrie de l'IA. Version GPT-5 d'OpenAI, Anthropic positionne son dernier modèle comme une alternative compĂ©titive, excellant dans les dĂ©fis de programmation complexes et l'exĂ©cution autonome des tâches. L'entreprise promet des « amĂ©liorations substantiellement plus importantes Â» dans les semaines Ă  venir, signe d'une concurrence accrue entre les principaux dĂ©veloppeurs d'IA.

Améliorations clés des performances

Selon l'annonce d'Anthropic, Claude Opus 4.1 améliore les performances de son prédécesseur dans trois domaines clés : les tâches agentiques qui nécessitent un raisonnement en plusieurs étapes, les applications de codage du monde réel et les capacités de raisonnement analytique.

Le modèle a obtenu 74.5 % sur le Benchmark vérifié SWE-bench, qui mesure la capacité d'une IA à identifier et à corriger les bugs réels dans les logiciels open source, surpassant le score précédent de Claude Opus 4 de 72.5 % et surpassant les modèles de la série o d'OpenAI d'environ cinq points de pourcentage.

GitHub a noté des gains particulièrement importants dans les capacités de refactorisation de code multi-fichiers, tandis que Rakuten Group a souligné la précision du modèle dans l'identification des corrections au sein de grandes bases de code sans introduire de nouveaux bugs. Planche à voile, une startup de codage, a rapporté qu'Opus 4.1 a apporté une amélioration d'un écart type par rapport à Opus 4 sur leur benchmark de développeur junior, comparant le saut de performance au saut précédent de Sonnet 3.7 à Sonnet 4.

Disponibilité et intégration

Le modèle mis à niveau est immédiatement disponible pour les utilisateurs payants de Claude via l'interface Web et Claude Code, ainsi que via L'API d'Anthropic, Amazon Bedrock et Vertex AI de Google Cloud. Les développeurs peuvent accéder au nouveau modèle via la balise API sans augmentation de prix par rapport à la version précédente, conservant ainsi la structure tarifaire ce qui a rendu Claude compétitif sur le marché des entreprises.

Au-delà de l'ingénierie logicielle, Claude Opus 4.1 démontre des capacités améliorées en matière d'analyse de données et de recherche. Anthropic a notamment mis en avant des améliorations dans le suivi des détails et la recherche agentique, faisant référence à la capacité du modèle à maintenir le contexte lors d'opérations complexes en plusieurs étapes, une fonctionnalité essentielle pour applications de l'entreprise nécessitant une résolution autonome de problèmes.

Contexte industriel et concurrence

Le calendrier de sortie semble délibéré, car des rapports du secteur suggèrent qu'OpenAI prévoit de dévoiler GPT-5 dans un avenir proche. The InformationGPT-5 devrait se concentrer sur des domaines similaires (programmation, mathématiques et tâches basées sur des agents), bien que les analystes prédisent que les améliorations pourraient être progressives plutôt que révolutionnaires.

L'itération rapide des modèles Claude – cette mise à jour intervenant seulement trois mois après le lancement de la famille Claude 4 en mai – reflète l'accélération du développement de l'IA, alors que les entreprises rivalisent pour se positionner sur le marché des outils d'entreprise et de développement. Cette évolution s'inscrit dans la lignée du positionnement historique d'Anthropic comme une alternative à OpenAI axée sur la sécurité, tout en maintenant des indicateurs de performance compétitifs.

Détails techniques et mise en œuvre

Construction carte système Claude Opus 4.1 rĂ©vèle que Claude Opus 64 est un modèle de raisonnement hybride, capable de fonctionner avec ou sans modes de pensĂ©e Ă©tendus. Pour des benchmarks comme SWE-bench Verified et Terminal-Bench, le modèle a obtenu ses rĂ©sultats sans mode de pensĂ©e Ă©tendu, tandis que d'autres benchmarks comme GPQA Diamond et MMMU ont utilisĂ© jusqu'Ă  XNUMX XNUMX jetons de capacitĂ© de pensĂ©e Ă©tendue.

Le modèle continue d'utiliser le mĂŞme Ă©chafaudage simple pour les tests SWE-bench qu'Anthropic a utilisĂ© pour la famille Claude 4 : il est Ă©quipĂ© uniquement d'un outil Bash et d'un outil d'Ă©dition de fichiers fonctionnant par remplacement de chaĂ®nes. Cette approche minimaliste contraste avec des implĂ©mentations plus complexes, tout en permettant d'obtenir des rĂ©sultats de pointe.

Perspective d’avenir

Anthropic recommande à tous les utilisateurs actuels d'Opus 4 de passer à la nouvelle version pour tous les cas d'utilisation. L'entreprise a mis à disposition une documentation complète, incluant les page modèle et des spécifications techniques pour les développeurs intéressés par la mise en œuvre de la technologie.

Alors qu'Anthropic et OpenAI préparent des versions importantes, les semaines à venir pourraient s'avérer cruciales pour déterminer le leadership dans la prochaine génération de capacités d'IA. Les modèles d'IA deviennent de plus en plus sophistiqués Dans leurs capacités de raisonnement et de codage, la concurrence passe des mesures de performance brutes à la mise en œuvre pratique et à la fiabilité dans les environnements de production.

FAQ (Claude Opus 4.1)

Comment Claude Opus 4.1 améliore-t-il les tâches de codage et de raisonnement par rapport aux versions précédentes ?

Claude Opus 4.1 obtient 74.5 % sur SWE-bench Verified (contre 72.5 % dans Opus 4), avec des améliorations notables dans la refactorisation de code multi-fichiers, le suivi des détails dans les bases de code complexes et les capacités de recherche agentique qui lui permettent de gérer plus efficacement les tâches de raisonnement en plusieurs étapes.

Quelles sont les principales applications concrètes de Claude Opus 4.1 dans le codage et les agents d'IA ?

Le modèle excelle dans le débogage de grandes bases de code sans introduire de nouveaux bugs, la refactorisation de code autonome sur plusieurs fichiers, l'analyse approfondie des données et les tâches de recherche nécessitant un contexte soutenu, ce qui le rend idéal pour le développement de logiciels d'entreprise et l'optimisation automatisée des flux de travail.

Comment les performances de Claude Opus 4.1 sur SWE-bench reflètent-elles ses capacités de codage ?

SWE-bench Verified mesure la capacité d'une IA à identifier et à corriger de vrais bugs dans les logiciels open source, et le score de 4.1 % de Claude Opus 74.5 représente la performance la plus élevée rapportée publiquement, surpassant les modèles de la série o d'OpenAI d'environ cinq points de pourcentage.

Quelles sont les principales différences entre Claude Opus 4.1 et d’autres modèles d’IA comme GitHub Copilot ou ChatGPT ?

Contrairement à GitHub Copilot qui se concentre sur la complétion de code, Claude Opus 4.1 gère des flux de travail complets de résolution de problèmes, y compris le débogage et la refactorisation, tout en offrant des modes de raisonnement hybrides qui peuvent basculer entre des réponses rapides et une réflexion étendue pour des tâches complexes, une capacité non disponible dans les implémentations ChatGPT standard.

Comment les développeurs et les entreprises peuvent-ils intégrer Claude Opus 4.1 dans leurs flux de travail et leurs plateformes ?

Les développeurs peuvent accéder à Claude Opus 4.1 via l'API en utilisant la balise « claude-opus-4-1-20250805 », via Amazon Bedrock, Google Cloud Vertex AI ou via Claude Code pour l'intégration en ligne de commande, avec le même prix qu'Opus 4 et aucune modification de code requise pour les implémentations existantes.

Alex McFarland est un journaliste et écrivain en IA qui explore les derniers développements en matière d'intelligence artificielle. Il a collaboré avec de nombreuses startups et publications d'IA dans le monde entier.