Cybersécurité
OpenAI lance Codex Security pour trouver les vulnérabilités dans le code

OpenAI a publié Codex Security le 6 mars, un agent de sécurité d’application alimenté par l’IA qui analyse les bases de code pour les vulnérabilités, valide les résultats dans des environnements sandboxés et propose des correctifs. L’outil a déjà découvert des failles dans OpenSSH, Chromium et cinq autres projets open-source largement utilisés, obtenant 14 désignations de vulnérabilités et d’expositions communes (CVE).
Codex Security, anciennement connu sous le nom de Aardvark, a passé environ un an en version bêta privée avant de passer à une version de préversion de recherche accessible aux clients de ChatGPT Pro, Enterprise, Business et Edu. OpenAI propose un accès gratuit pour le premier mois.
L’agent diffère des outils d’analyse statique conventionnels en établissant un modèle de menace spécifique au projet avant de procéder à l’analyse. Il analyse l’architecture d’un référentiel pour comprendre ce que le système fait, ce en quoi il a confiance et où l’exposition est la plus élevée. Les équipes peuvent modifier le modèle de menace pour garantir que les résultats sont alignés sur leur posture de risque. Lorsqu’il est configuré avec un environnement personnalisé, Codex Security effectue des tests de pression sur les vulnérabilités potentielles directement contre le système en cours d’exécution, générant des preuves de concept d’exploitation pour confirmer l’impact dans le monde réel.
Performances à grande échelle
Au cours des 30 derniers jours de test bêta, Codex Security a analysé plus de 1,2 million de validations à travers des référentiels externes, mettant en évidence 792 résultats critiques et 10 561 problèmes de gravité élevée. Les vulnérabilités critiques sont apparues dans moins de 0,1 % des validations analysées, ce qui suggère que le système peut traiter de grandes bases de code tout en gardant le bruit gérable pour les réviseurs.
OpenAI indique que la précision s’est améliorée de manière substantielle pendant la période bêta. Dans un cas, le bruit a diminué de 84 % entre la version initiale et la version actuelle. Pour tous les référentiels, les taux de faux positifs ont baissé de plus de 50 %, et les résultats avec une gravité surestimée ont diminué de plus de 90 %. L’agent intègre également les commentaires : lorsque les utilisateurs ajustent la criticité d’un résultat, il affine le modèle de menace pour les analyses ultérieures.
Ces chiffres répondent à une plainte persistante des équipes de sécurité évaluant les outils de codage IA. Une analyse de 2025 portant sur 80 tâches de codage à travers plus de 100 grands modèles de langage a révélé que le code généré par l’IA introduit des vulnérabilités de sécurité dans 45 % des cas, ce qui rend les outils de détection en aval de plus en plus importants à mesure que le code écrit par l’IA se généralise.
Découvertes de vulnérabilités open-source
OpenAI a exécuté Codex Security contre les référentiels open-source dont il dépend, signalant des résultats à impact élevé aux maintainers. La liste publiée comprend OpenSSH, GnuTLS, GOGS, Thorium, libssh, PHP et Chromium. Sur les 14 CVE attribués, deux impliquaient des rapports doubles avec d’autres chercheurs.
Dans des conversations avec les maintainers, OpenAI a déclaré que le principal défi n’était pas un manque de rapports de vulnérabilités, mais un excès de rapports de mauvaise qualité. Les maintainers avaient besoin de moins de faux positifs et d’une charge de triage moindre — des commentaires qui ont façonné l’accent mis par Codex Security sur les résultats à haute confiance plutôt que sur le volume.
La société a également annoncé Codex pour OSS, un programme qui fournit des comptes ChatGPT Pro et Plus gratuits, un soutien à la revue de code et un accès à Codex Security aux maintainers open-source. Le projet vLLM a déjà utilisé l’outil pour trouver et corriger des problèmes dans son flux de travail normal. OpenAI prévoit d’étendre le programme dans les semaines à venir.
Le lancement positionne OpenAI comme un participant direct à la sécurité des applications, un marché où les acteurs établis comme Snyk, Semgrep et Veracode ont déjà pris pied. Google a récemment publié une architecture de sécurité détaillée pour ses propres fonctionnalités d’agent IA dans Chrome, signalant que l’intersection des agents IA et des outils de sécurité attire l’attention de plusieurs directions.
Plusieurs questions restent sans réponse. OpenAI n’a pas divulgué les prix après la période d’essai gratuite, ni spécifié quel modèle de frontière alimente la raison de Codex Security. L’outil fonctionne actuellement via Codex Web plutôt que d’offrir une intégration au niveau de l’API, ce qui pourrait limiter l’adoption par les équipes ayant des pipelines d’automatisation de la sécurité existantes. Il faudra déterminer si Codex Security peut maintenir ses améliorations de précision à mesure qu’il dépasse la version bêta — et si les maintainers open-source adoptent le programme à une échelle significative — pour savoir si l’agent deviendra un élément durable de la pile de développement assistée par l’IA ou restera une version de préversion de recherche.












