Connect with us

OpenAI og Anthropic dropper duellerende modeller, da AI-våbenkapløbet intensiveres

Kunstig intelligens

OpenAI og Anthropic dropper duellerende modeller, da AI-våbenkapløbet intensiveres

mm

OpenAI og Anthropic udgav nye flagship-modeller inden for minutter af hinanden i dag, mens OpenAI samtidig lancerede en enterprise-agent-platform og Perplexity introducerede en multi-model-forskningsfunktion. I dag leverede mere betydningsfulde AI-produktmeddelelser på en enkelt eftermiddag end de fleste uger producerer i alt.

Her er, hvad der skete, og hvad det betyder.

Anthropics Opus 4.6: Agenthold og en million-token-vindue

Anthropic udgav Claude Opus 4.6, dens mest kapable model, med to overskriftsfuncionaliteter: et en-million-token-kontekstvindue og en ny funktion kaldet Agenthold.

Kontekstvinduet er den større tekniske præstation. Med ét million token kan Opus 4.6 behandle omtrent 3.000 sider tekst i en enkelt prompt — fire gange 256.000-token-grænsen for dens forgænger. Kombineret med 128.000-token-outputsupport kan modellen nu indtage og arbejde med hele kodebaser, reguleringsskrivelser eller forskningskorpus uden chunking eller sammenfattelse.

Agenthold, tilgængelig i Claude Code, giver mulighed for multiple Claude-forekomster til at arbejde i parallel på en delt kodebase. I stedet for, at en enkelt agent udfører opgaver sekventielt, kan udviklere starte hold, hvor en agent håndterer frontend-ændringer, en anden skriver tests, og en tredje refaktorerer backend-logik — alle koordinerer på samme projekt samtidig.

Opus 4.6 introducerer også adaptivt tænkning, der giver modellen mulighed for at kalibrere, hvor meget tænkeindsats der skal investeres i en given prompt. Simple spørgsmål får hurtige svar; komplekse problemer udløser dybere forlænget tænkning. Udviklere kan justere dette via indsatskontroller på fire niveauer: lav, medium, høj og max.

På benchmarks scorer Opus 4.6 højest på Terminal-Bench 2.0 for agentic coding og leder Humanity’s Last Exam, en kompleks tænkningsevaluering. Anthropic hævder en 144-point Elo-fordele over GPT-5.2 på GDPval-AA-evalueringen og en 190-point forbedring over Opus 4.5.

API-priser forbliver uændret på 5 $ pr. million input-token og 25 $ pr. million output-token, selvom prompts, der overstiger 200.000 token, medfører en præmie på 10/37,50 $.

I en bemærkelsesværdig enterprise-bevægelse annoncerede Anthropic en forskningspræview af Claude i Microsoft PowerPoint, hvor modellen kan læse eksisterende slid-layouts og -skabeloner og generere eller redigere præsentationer, mens den bevarende brand-format.

OpenAI’s GPT-5.3-Codex: Modellen, der hjalp med at bygge sig selv

Minutter efter Anthropics annoncering lancerede OpenAI GPT-5.3-Codex, dens mest kapable coding-model. Udgivelsen samler frontier-coding-præstationen af GPT-5.2-Codex med tænkning- og professionel viden-kapaciteterne af GPT-5.2 i et enkelt system, der også er 25 procent hurtigere.

Den mest bemærkelsesværdige påstand: GPT-5.3-Codex hjalp med at bygge sig selv. OpenAI’s Codex-hold brugte tidlige versioner af modellen under dens egen træningsproces — fejlfinding af træningsløb, håndtering af installationsinfrastruktur og diagnosticering af evalueringresultater. Det er OpenAI’s første offentlige erkendelse af, at en model var afgørende for sin egen udvikling, en milepæl, der rejser både effektivitets- og sikkerhedsspørgsmål.

GPT-5.3-Codex sætter nye industribudgetter på SWE-Bench Pro og Terminal-Bench, benchmarks, der vurderer virkelige software-udviklingstasks. Modellen kan håndtere langvarige opgaver, der involverer forskning, værktøjsbrug og kompleks udførelse, og brugere kan interagere med den midt i opgaven uden at miste kontekst — mere som at samarbejde med en kollega end at udstede kommandoer.

Modellen er tilgængelig nu for alle ChatGPT-betalt-plan-brugere via Codex-appen, CLI, IDE-udvidelse og webgrænseflade. API-adgang er på vej.

For udviklere, der vælger mellem AI-kode-genereringsværktøjer, er den konkurrerende billed nu skarpt defineret: Opus 4.6 leder på agent-koordination og lang-kontekst-arbejde, mens GPT-5.3-Codex fremhæver hastighed og integreret tænkning. Begge påstår top-karakterer på overlappende benchmarks, og værktøjer som Cursor og Apples Xcode understøtter begge, så udviklere kan skifte frit.

OpenAI Frontier: Enterprise-agenter får deres egen platform

Sammen med model-lanceringen introducerede OpenAI Frontier, en enterprise-platform for opbygning, installation og administration af AI-agenter. Frontier forbinder til databases, CRM-systemer, HR-platforme, billetværktøjer og andre forretningsapplikationer, derefter giver AI-agenter mulighed for at udføre processer på tværs af dem.

OpenAI beskrev Frontier som “en semantisk lag for enterprise”, hvor menneskelige medarbejdere og AI-agenter opererer på samme platform med delt dataadgang og sikkerheds kontroller. Agenter får medarbejder-lignende identiteter, delt organisationskontekst og enterprise-klasse tilladelser.

Platformen er model-agnostisk — virksomheder kan administrere agenter bygget på OpenAI’s modeller sammen med dem fra Google, Microsoft og Anthropic. Initiale kunder inkluderer Intuit, State Farm, Thermo Fisher og Uber.

Frontier positionerer OpenAI til at konkurrere direkte med enterprise-platforme som Salesforce’s Agentforce og ServiceNow’s AI-agenter. Forskellen: OpenAI bygger fra model-laget op, mens etablerede virksomheder tilføjer AI til eksisterende workflow-værktøjer. Om virksomheder foretrer deres agent-infrastruktur fra deres AI-udbyder eller deres software-udbyder vil definere enterprise-AI-konkurrencen i 2026.

Perplexity’s Model Council: Tre modeller, ét svar

Perplexity lancerede Model Council, en funktion, der kører samme forespørgsel på tre modeller samtidig — Claude Opus, GPT og Gemini — derefter bruger en syntetiseringsmodel til at sammenføje deres outputs til ét enkelt svar, der markerer områder af enighed og uenighed.

Billede: Perplexity

Præmisset er, at ingen enkelt model er pålideligt bedst på tværs af alle forespørgsler. Når tre frontier-modeller konvergerer på samme svar, er tilliden høj. Når de divergerer, ved brugerne, at de skal undersøge yderligere. Model Council er tilgængelig for Max-abonnenter og er positioneret for investeringsforskning, strategisk analyse og kompleks beslutningstagning.

Funktionen reflekterer Perplexity’s strategi om at differentiere gennem multi-model-orkestration frem for at bygge grundlæggende modeller. Da gapet mellem frontier AI-chatbots smalner på individuelle benchmarks, kan aggregering af deres outputs være mere værdifuld end at vælge en enkelt udbyder.

Hvad det hele betyder

Disse udgivelser bekræfter, at AI-konkurrencen er skiftet fra model-kapacitet til produkt-infrastruktur. Begge OpenAI og Anthropic har modeller, der top på samme benchmarks; differentieringen lever nu i, hvad du kan bygge på toppen af dem.

Perplexity, imens, gør et stille argument for, at model-krigene kan være mindre vigtige end, hvordan du kombinerer modeller. Hvis Model Council viser sig at være nyttig, antyder det, at fremtiden ikke er at vælge mellem Claude og GPT — det er at bruge begge.

For udviklere og virksomheder, der vurderer deres AI-stack, har dette blot gjort beslutningen sværere.

Alex McFarland er en AI-journalist og forfatter, der udforsker de seneste udviklinger inden for kunstig intelligens. Han har samarbejdet med talrige AI-startups og publikationer verden over.