Sicurezza informatica
OpenAI Lancia Codex Security Per Trovare Le Vulnerabilità Nel Codice

OpenAI ha rilasciato Codex Security il 6 marzo, un agente di sicurezza dell’applicazione alimentato da intelligenza artificiale che scansiona le basi di codice per le vulnerabilità, convalida i risultati in ambienti sandbox e propone patch. Lo strumento ha già scoperto difetti in OpenSSH, Chromium e altri cinque progetti open-source ampiamente utilizzati, guadagnando 14 designazioni di Common Vulnerabilities and Exposures (CVE).
Codex Security, in precedenza noto come Aardvark, ha trascorso circa un anno in beta privata prima di passare a una versione di anteprima di ricerca disponibile per i clienti ChatGPT Pro, Enterprise, Business e Edu. OpenAI offre l’accesso gratuito per il primo mese.
L’agente differisce dagli strumenti di analisi statica convenzionali costruendo un modello di minaccia specifico del progetto prima della scansione. Analizza l’architettura di un repository per capire cosa fa il sistema, cosa si fida e dove l’esposizione è più alta. I team possono modificare il modello di minaccia per mantenere i risultati allineati con la loro postura di rischio. Quando configurato con un ambiente personalizzato, Codex Security esegue test di pressione su potenziali vulnerabilità direttamente contro il sistema in esecuzione, generando exploit di prova del concetto per confermare l’impatto nel mondo reale.
Prestazioni su larga scala
Negli ultimi 30 giorni di test beta, Codex Security ha scansionato oltre 1,2 milioni di commit in repository esterni, portando alla luce 792 risultati critici e 10.561 problemi di gravità alta. Le vulnerabilità critiche sono apparse in meno dell’1% dei commit scansionati, suggerendo che il sistema possa elaborare grandi basi di codice mantenendo il rumore gestibile per i revisori.
OpenAI riferisce che la precisione è migliorata notevolmente durante il periodo beta. In un caso, il rumore è sceso dell’84% tra il rollout iniziale e la versione attuale. In tutti i repository, i tassi di falsi positivi sono scesi di oltre il 50% e i risultati con gravità sovrariportata sono scesi di oltre il 90%. L’agente incorpora anche i feedback: quando gli utenti regolano la criticità di un risultato, raffina il modello di minaccia per le scansioni successive.
Questi numeri affrontano una lamentela persistente da parte dei team di sicurezza che valutano gli strumenti di codifica AI. Un’analisi del 2025 di 80 attività di codifica su oltre 100 grandi modelli linguistici ha scoperto che il codice generato da AI introduce vulnerabilità di sicurezza nel 45% dei casi, rendendo gli strumenti di rilevamento downstream sempre più importanti man mano che il codice scritto da AI si diffonde.
Scoperta di vulnerabilità open-source
OpenAI ha eseguito Codex Security contro i repository open-source di cui dipende, segnalando risultati ad alto impatto ai manutentori. L’elenco dei risultati include OpenSSH, GnuTLS, GOGS, Thorium, libssh, PHP e Chromium. Dei 14 CVE assegnati, due hanno coinvolto la segnalazione doppia con altri ricercatori.
In conversazioni con i manutentori, OpenAI ha detto che la sfida principale non è stata la scarsità di segnalazioni di vulnerabilità, ma un eccesso di segnalazioni di bassa qualità. I manutentori avevano bisogno di meno falsi positivi e meno fardelli di triage — un feedback che ha plasmato l’enfasi di Codex Security su risultati ad alta fiducia rispetto al volume.
La società ha anche annunciato Codex per OSS, un programma che fornisce account ChatGPT Pro e Plus gratuiti, supporto per la revisione del codice e accesso a Codex Security ai manutentori open-source. Il progetto vLLM ha già utilizzato lo strumento per trovare e correggere problemi all’interno del suo flusso di lavoro normale. OpenAI prevede di espandere il programma nelle prossime settimane.
Il lancio posiziona OpenAI come un partecipante diretto alla sicurezza delle applicazioni, un mercato in cui gli incumbent come Snyk, Semgrep e Veracode hanno stabilito una presenza. Google ha recentemente pubblicato un dettagliato architetto di sicurezza per le sue funzionalità di agente AI in Chrome, segnalando che l’intersezione degli agenti AI e degli strumenti di sicurezza sta attirando l’attenzione da più direzioni.
Rimangono diverse domande senza risposta. OpenAI non ha divulgato i prezzi dopo il periodo di prova gratuito, né ha specificato quale modello di frontiera alimenta il ragionamento di Codex Security. Lo strumento attualmente funziona attraverso Codex web e non offre un’integrazione a livello di API, potenzialmente limitando l’adozione da parte dei team con pipeline di automazione della sicurezza esistenti. Se Codex Security potrà mantenere i suoi miglioramenti di precisione man mano che si espande oltre la beta — e se i manutentori open-source adotteranno il programma a una scala significativa — determinerà se l’agente diventerà un elemento permanente nello stack di sviluppo assistito da AI o rimarrà una versione di anteprima di ricerca.












