Conectează-te cu noi

Anunturi

Anthropic lansează Claude Opus 4.1, zdrobește testele de codare

mm

Anthropic lansat Claude Opus 4.1 astăzi, o versiune îmbunătățită a modelului său emblematic de inteligență artificială, care atinge o precizie de 74.5% în sarcinile de codare din lumea reală, stabilind un nou record de referință, menținând în același timp același preț ca predecesorul său.

Actualizarea este o mișcare strategică, așa cum anticipează industria inteligenței artificiale. Lansarea GPT-5 a OpenAI, Anthropic poziționând cel mai recent model al său ca o alternativă competitivă ce excelează la provocări complexe de programare și finalizare autonomă a sarcinilor. Compania promite „îmbunătățiri substanțial mai mari” în următoarele săptămâni, semnalând o concurență tot mai intensă între dezvoltatorii de inteligență artificială de top.

Îmbunătățiri cheie ale performanței

Conform anunțului Anthropic, Claude Opus 4.1 îmbunătățește performanța predecesorului său în trei domenii cheie: sarcini agențice care necesită raționament în mai mulți pași, aplicații de codare în lumea reală și capacități de raționament analitic.

Modelul a obținut 74.5% la Benchmark verificat de SWE-bench, care măsoară capacitatea unei inteligențe artificiale de a identifica și remedia erorile reale din software-ul open-source - depășind scorul anterior Claude Opus 4 de 72.5% și performanțele superioare ale modelelor din seria O ale OpenAI cu aproximativ cinci puncte procentuale.

GitHub a remarcat progrese deosebit de mari în ceea ce privește capacitățile de refactorizare a codului multi-fișier, în timp ce Rakuten Group a evidențiat precizia modelului în identificarea corecțiilor în bazele de cod mari, fără a introduce noi erori. Windsurfing, o companie startup de programare, a raportat că Opus 4.1 a oferit o îmbunătățire de o deviație standard față de Opus 4 în benchmark-ul lor pentru dezvoltatori juniori, comparând saltul de performanță cu saltul anterior de la Sonnet 3.7 la Sonnet 4.

Disponibilitate și integrare

Modelul actualizat este disponibil imediat utilizatorilor Claude plătitori prin intermediul interfeței web și al Claude Code, precum și prin intermediul API-ul Anthropic, Amazon Bedrock și Vertex AI de la Google Cloud. Dezvoltatorii pot accesa noul model folosind eticheta API fără o creștere de preț față de versiunea anterioară, menținând structura prețurilor ceea ce l-a făcut pe Claude competitiv pe piața întreprinderilor.

Dincolo de ingineria software, Claude Opus 4.1 demonstrează capacități îmbunătățite în analiza datelor și sarcinile de cercetare. Anthropic a evidențiat în mod specific îmbunătățirile aduse „urmăririi detaliilor și căutării agențice”, referindu-se la capacitatea modelului de a menține contextul în cadrul operațiunilor complexe, cu mai mulți pași - o caracteristică critică pentru aplicații de întreprindere necesitând rezolvarea autonomă a problemelor.

Contextul industriei și concurența

Momentul lansării pare a fi ales deliberat, deoarece rapoartele din industrie sugerează că OpenAI intenționează să dezvăluie GPT-5 în viitorul apropiat. Conform InformațiileSe așteaptă ca GPT-5 să se concentreze pe domenii similare - programare, matematică și sarcini bazate pe agenți - deși analiștii prevăd că îmbunătățirile ar putea fi incrementale, mai degrabă decât revoluționare.

Iterația rapidă a modelelor Claude — această actualizare venind la doar trei luni după lansarea familiei Claude 4 în luna mai — reflectă ritmul accelerat al dezvoltării inteligenței artificiale, pe măsură ce companiile concurează pentru poziția pe piață în domeniul instrumentelor pentru întreprinderi și dezvoltatori. Aceasta urmează istoriei Anthropic de a se poziționa ca o alternativă la OpenAI axată pe siguranță, menținând în același timp valori competitive ale performanței.

Detalii tehnice și implementare

card de sistem relevă faptul că Claude Opus 4.1 este un model de raționament hibrid, capabil să funcționeze cu sau fără moduri de gândire extinse. Pentru teste de performanță precum SWE-bench Verified și Terminal-Bench, modelul și-a obținut rezultatele fără gândire extinsă, în timp ce alte teste de performanță precum GPQA Diamond și MMMU au utilizat până la 64K de jetoane de capacitate de gândire extinsă.

Modelul continuă să utilizeze aceeași schelă simplă pentru testarea SWE-bench pe care Anthropic a folosit-o în familia Claude 4 - echipând modelul doar cu un instrument bash și un instrument de editare a fișierelor care funcționează prin înlocuiri de șiruri de caractere. Această abordare minimalistă contrastează cu implementările mai complexe, dar obține în continuare rezultate de top în industrie.

Perspective

Anthropic recomandă tuturor utilizatorilor actuali de Opus 4 să facă upgrade la noua versiune pentru toate cazurile de utilizare. Compania a pus la dispoziție o documentație completă, inclusiv pagina modelului și specificații tehnice pentru dezvoltatorii interesați de implementarea tehnologiei.

Având în vedere că atât Anthropic, cât și OpenAI pregătesc lansări semnificative, următoarele săptămâni s-ar putea dovedi esențiale în determinarea poziției de lider în următoarea generație de capabilități de inteligență artificială. Modelele de inteligență artificială devin din ce în ce mai sofisticate În ceea ce privește abilitățile lor de raționament și codare, concurența se mută de la indicatori bruti de performanță la implementare practică și fiabilitate în mediile de producție.

Întrebări frecvente (Claude Opus 4.1)

Cum îmbunătățește Claude Opus 4.1 sarcinile de codare și raționament în comparație cu versiunile anterioare?

Claude Opus 4.1 obține un scor de 74.5% la testul SWE-bench Verified (în creștere de la 72.5% în Opus 4), cu îmbunătățiri notabile în refactorizarea codului multi-fișier, urmărirea detaliilor în baze de cod complexe și capacitățile de căutare agentică care îi permit să gestioneze mai eficient sarcinile de raționament în mai mulți pași.

Care sunt principalele aplicații din lumea reală pentru Claude Opus 4.1 în domeniul codării și al agenților de inteligență artificială?

Modelul excelează la depanarea bazelor de cod mari fără a introduce noi erori, refactorizarea autonomă a codului pe mai multe fișiere, analiza aprofundată a datelor și sarcinile de cercetare care necesită context susținut - ceea ce îl face ideal pentru dezvoltarea de software pentru întreprinderi și optimizarea automată a fluxului de lucru.

Cum reflectă performanța lui Claude Opus 4.1 pe SWE-bench capacitățile sale de codare?

SWE-bench Verified măsoară capacitatea unei inteligențe artificiale de a identifica și remedia erori reale în software-ul open source, iar scorul de 4.1% al ​​Claude Opus 74.5 reprezintă cea mai mare performanță raportată public, depășind modelele din seria O ale OpenAI cu aproximativ cinci puncte procentuale.

Care sunt principalele diferențe dintre Claude Opus 4.1 și alte modele de inteligență artificială precum GitHub Copilot sau ChatGPT?

Spre deosebire de GitHub Copilot, care se concentrează pe completarea codului, Claude Opus 4.1 gestionează fluxuri complete de lucru pentru rezolvarea problemelor, inclusiv depanarea și refactorizarea, oferind în același timp moduri de raționament hibrid care pot comuta între răspunsuri rapide și gândire extinsă pentru sarcini complexe - o capacitate care nu este disponibilă în implementările standard ChatGPT.

Cum pot dezvoltatorii și companiile să integreze Claude Opus 4.1 în fluxurile de lucru și platformele lor?

Dezvoltatorii pot accesa Claude Opus 4.1 prin intermediul API-ului folosind eticheta „claude-opus-4-1-20250805”, prin Amazon Bedrock, Google Cloud Vertex AI sau prin Claude Code pentru integrare în linia de comandă, cu același preț ca Opus 4 și fără a fi necesare modificări de cod pentru implementările existente.

Alex McFarland este jurnalist și scriitor AI care explorează cele mai recente evoluții în inteligența artificială. A colaborat cu numeroase startup-uri și publicații AI din întreaga lume.