Tankeledere
AI-staben er kompromittert av design

Fire feil. Fire lag. Arkitekturen selv er sårbarheten.
En nylig episode av New York Times’ Hard Fork podcast fra 10. april 2026 undersøkte cybersecurity-implikasjonene av avanserte AI-systemer og reiste et spørsmål som bransjen har unngått: hva hvis cybersecurity ikke er underpresterende, men fundamentalt misframstilt?
Episoden ble sendt noen uker etter en rekke hendelser som gjorde svaret vanskelig å ignorere. I løpet av en måned ble en autonom AI-agent brudd på McKinseys interne AI-plattform på bare to timer. En supply chain-angrep på en vidt brukte åpne kildekode AI-bibliotek skapte en kaskade av nedstrømsbedrifter. Forskere viste at hardwaren som var ment å være siste forsvarslinje, kunne brytes med standarddelene som kostet mindre enn tusen dollar. Og Anthropic avslørte at en frontier-modell hadde autonomt funnet tusenvis av ukjente sårbarheter i kode som industrien anså som stabil.
Fire hendelser. Fire lag av AI-staben: applikasjon, orkestrering, hardware og operativsystem. Hver avdekket betydelige begrensninger i kontrollene som var designet for å beskytte dem.
Slutt på perimeter-tenkning
Tradisjonell cybersecurity bygger på en enkelt premisse: med nok kontroller, overvåking og investeringer, kan systemer sikres. Denne premissen har formet tiår av arkitektur, inkludert brannmurer, identitetshåndtering, endpoint-sikkerhet og SIEM-plattformer, alle bygget på ideen om at synlighet og tett ledelse er lik med sikkerhet.
Bransjens skifte mot Zero Trust Architecture reflekterer en voksende erkjennelse av at tradisjonelle nettverks grenser ikke lenger kan antas å være pålitelige. Likevel, selv om tillitsmodellene utvikler seg, introduserer AI-systemer en annen utfordring: sensitiv data samles jevnt over, prosesseres og deles over flere lag av infrastruktur.
Denne tilnærmingen hadde mening når systemene var relativt sentraliserte og data forble innenfor klart definerte grenser. Den blir mye mindre effektiv når data flytter kontinuerlig over skyer, API-er, tredjepartsleverandører og AI-pipelines, mens brukere og beregningsressurser er distribuert globalt. Perimeteret er ikke lenger en grense. Det er en konstant skiftende overflate, og vi anvender fremdeles kontrollbasert tenkning til systemer som ikke realistisk kan kontrolleres.
Applikasjonslagfeil: McKinseys Lilli
Den 9. mars 2026, offentliggjorde sikkerhetsstartup CodeWall en rapport som fremhevet risikoene som organisasjonene som deployer AI internt, møter. .
CodeWalls autonome offensive agent, uten kredensialer, uten insiderkunnskap og uten menneskelig veiledning, oppnådde lese- og skriveadgang til produksjonsdatabasen bak Lilli, McKinseys interne AI-plattform, på under to timer. Lilli brukes av over 40 000 ansatte for strategiarbeid, kundeundersøkelser og dokumentanalyse, og genererer hundredtusener av forespørsler per måned.
Inngangspunktet var ikke sofistikert. Agenten fant offentlig eksponert API-dokumentasjon som listet over 200 sluttpunkter, 22 av dem krevde ingen autentisering. Sårbarhetene involvert speilet risikoer som er fremhevet i OWASP Top 10 for LLM Applications, spesielt rundt eksponerte grensesnitt, usikre integrasjoner og overdratt tillit til koblet systemer.
En av disse sluttpunktene inneholdt en SQL-injeksjonssårbarhet skjult i JSON-felt navn i stedet for innputtverdier, der de fleste automatiske skannere ser. Deretter itererte agenten gjennom blind SQL-injeksjon til produksjonsdata ble tilgjengelig.
Hva den aksesserte: titall millioner chatte-meldinger i klartekst, hundredtusener av filer, titall tusen brukerkontoer og millioner av RAG-dokumentfragmenter som representerte år med proprietær forskning. Den identifiserte også systemforespørsler som styrte hvordan Lilli oppførte seg for hver enkelt bruker.
Den mest alarmerende funn var ikke volumet. Det var at systemforespørsler var skrivbare. En angriper kunne ha skrevet om instruksjonene som styrte Lillis utdata, forgiftet strategisk råd, innlemmet konfidensiell data i svarene eller fjernet sikkerhetsbegrensninger helt, med en enkelt databaseoppdatering. Ingen deployering. Ingen kodeendring. Ingen spor i applikasjonsloggene.
I en offentlig uttalelse, sa McKinsey at de hadde rettet opp problemet innen noen timer og, etter en undersøkelse av en tredjepartsforensisk firma, fant ingen bevis for at klientens konfidensielle data var aksessert. Denne responsen er viktig. Men den endrer ikke den strukturelle læren: en tiår gammel sårbarhetsklasse avdekket den operative minnet til et moderne AI-system fordi dataene bak det eksisterte i lesbar form.
Orkestreringslagfeil: LiteLLM-angrepet
Tre uker senere, dukket samme mønster opp fra en annen vinkel, og gjennom et annet lag.
LiteLLM er en åpen kildekode AI-gateway som brukes av tusenvis av selskaper til å rute forespørsler over AI-leverandører. Dets posisjon i staken er kritisk: den sitter på orkestreringslaget, holder API-nøkler for hver leverandør den kobler til. Enhver kompromittering på dette laget eksponerer kredensialer over hver integrert tjeneste.
Ifølge en PyPI-incidentrapport, utnyttet trusselaktørgruppen TeamPCP kredensialer knyttet til en avhengighet i LiteLLMs CI/CD-pipeline og brukte vedlikeholdertilgang til å publisere to bakdørsversjoner av LiteLLM-pakken direkte til PyPI. . De forurensede versjonene var live i mindre enn en time før de ble fjernet. Operasjonen ble bare oppdaget fordi malwarene inneholdt en feil som krasjet en forskers maskin.
Forsyningskjeden var vektoren. Orkestreringslaget var målet. Ved å kompromittere en enkelt avhengighet oppstrøms, nådde angriperne laget hvor hver nedstrøms selskaps provider-nøkler bodde.
LiteLLM-teamet detaljerte senere hendelsen og mitigasjonstiltakene i en offentlig GitHub-rapport.
Eksplosjonsradius ble synlig nesten umiddelbart. TechCrunch, Fortune og The Register rapporterte at Mercor, en 10 milliarder dollar AI-rekrutteringsstartup som arbeider med selskaper inkludert OpenAI, Anthropic, Meta og Google, var blant de berørte organisasjonene. Angriperne hevdet å ha fått tak i store mengder data, inkludert kandidatprofiler, personlig identifiserbar informasjon, kontraktvideo-intervjuer, kildekode og API-nøkler. Meta pause arbeidet med Mercor i påvente av undersøkelse. Senere rapportering indikerte lignende malware-mønster som dukket opp i andre utviklerverktøy og pakker, noe som antyder at operasjonen kan ha gått utover ett enkelt prosjekt.
LiteLLM-hendelsen var ikke en anomali. Det var systemet som oppførte seg som designet. Hver komponent i en AI-pipeline krever tilgang til brukbar data for å fungere, noe som betyr at hver komponent også er et potensielt ekstraksjonspunkt. Å feste avhengigheter og rotere kredensialer er nødvendige responser, men de adresserer hendelsen, ikke arkitekturen.
Hardwarelagfeil: TEE.fail
Hvis McKinsey-bruddet viste at applikasjonslaget ikke kan stole på, og LiteLLM-angrepet viste at forsyningskjeden ikke kan stole på, viste TEE.fail-forskningen at hardwaren som var ment å kompensere for begge, heller ikke kan stole på fullt.
Den 28. oktober 2025, offentliggjorde forskere fra Georgia Tech, Purdue University og Synkhronix TEE.fail, en side-kanalangrep som trekker ut kryptografiske nøkler fra Trusted Execution Environments ved å bruke fysisk minnebuss-interposisjon på DDR5-servere. Angrepet påvirker Intel SGX, Intel TDX og AMD SEV-SNP, inkludert på fullt patched, trusted-status systemer med AMDs Ciphertext Hiding aktivert. Disse teknologiene er vidt promotert som grunnlaget for confidential computing.
Forskerne trakk ut attestasjon-nøkler: den kryptografiske materiale som brukes til å verifisere at arbeidsbelastninger kjører innenfor sikre miljøer. Med disse nøklene kan et kompromittert system presentere seg som pålitelig mens det opererer helt utenfor forventede beskyttelser. Forskerne demonstrerte dette direkte: de forfalsket TDX-attestasjoner på Ethereum’s BuilderNet for å få tilgang til konfidensielle transaksjonsdata, og forfalsket Intel- og NVIDIA-attestasjoner for å kjøre arbeidsbelastninger utenfor noen TEE mens de fremsto som legitime.
NVIDIA-implikasjonen er viktig for AI spesifikt. Fordi GPU-attestasjon avhenger av CPU-attestasjon, kan et kompromittert CPU-tillitskjede undergrave garantiene som gis av konfidensielle AI-inferensmiljøer. Hardware-grunnlaget for konfidensiell AI-inferens er, i denne trusselmodellen, avhengig av en CPU-TEE som har vært demonstrert å være brutt.
Hardware-leverandører svarte med formelle råd. AMD sa at fysisk tilgangsangrep faller utenfor deres standard trusselmodell og indikerte at de ikke ville utstedde firmware-oppdateringer. Intel og NVIDIA anerkjente funnene og indikerte pågående mitigasjonarbeid. Disse responsene er rimelige innenfor deres trusselmodeller. De fremhever også en viktig grense: garantier for hardware-basert sikkerhet avhenger av antagelser, inkludert fysisk kontroll, som suverene, regulerte og motstandsfacede distribusjoner ikke alltid kan gjøre.
TEE.fail gjør ikke hardware-isolasjon irrelevant. Det demonstrerer at det er betinget.
OS-lagfeil: The Mythos Revelation
Hvis de tre første hendelsene kastet tvil på applikasjonslaget, orkestreringslaget og hardware-laget, kastet en fjerde avsløring i april 2026 tvil på laget under alle disse: operativsystemene og core-bibliotekene som alle andre lag kjører på.
Den 7. april 2026, annonserte Anthropic Claude Mythos Preview, en frontier-modell som de nektet å utgi offentlig på grunn av dens offensive sikkerhetskapasiteter, og lanserte samtidig Project Glasswing, en konsortium med AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA og Palo Alto Networks. Anthropic rapporterte at, i løpet av noen uker, hadde Mythos autonomt identifisert tusenvis av ukjente sårbarheter over store operativsystemer og nettlesere og var i stand til å produsere arbeidende eksploatører for mange av dem.
De spesifikke funnene er vanskeligere å avvise enn noen sammenfatning antyder. En 27 år gammel feil i OpenBSD. En 17 år gammel fjern-kode-eksekveringssårbarhet i FreeBSDFs NFS-server, nå sporet som CVE-2026-4747, som gir root-tilgang til en uautentisert angriper. En 16 år gammel sårbarhet i FFmpeg, ett av de mest utbredte mediebibliotekene på internettet. I ett tilfelle spurte en Anthropic-ingeniør uten formell sikkerhetstreningsmodell om å se etter fjern-kode-eksekveringssårbarheter over natten og våknet opp til en fullt fungerende eksploatør.
Disse er operativsystem-nivåfunn. OpenBSD og FreeBSD er kjerner. NFS er en kernel-nettverkssubsystem. FFmpeg er et systembibliotek som leveres med de fleste Linux-distribusjoner og understøtter mediepipeliner over hele internettet. OS-laget ble antatt å være trygt ikke fordi det hadde blitt bevist å være sikret, men fordi å finne dyptgående feil i det krevde sjeldne og dyre menneskelige ekspertise. Denne antagelsen var den beste tilgjengelige heuristiske. Den var aldri en garanti.
Denne begrensningen har nå blitt løsnet. Anthropic selv rammet denne som en dual-use-skifte: de samme kapasitetene som tillater en frontier-modell å finne og fikse sårbarheter i stor skala, tillater den også, i feil hender, å finne og utnytte dem i stor skala. Anthropics beslutning om å begrense tilgang gjennom Project Glasswing reflekterer denne virkeligheten. Den løser den ikke. Tilsvarende kapasiteter vil, ifølge selskapets egen vurdering, spre seg. Kostnaden av å gjennomgå legacy-kode har kollapset, og med det den implisitte forsvarsmekanismen at slik kode var for gammel, for obskur eller for vidt gjennomgått til å inneholde kritiske feil.
Dette er også der de fire hendelsene forsterker hverandre. Hardware-lagets konfidensielle beskyttelsesgarantier kjører ikke i isolasjon. De kjører som kernel-kode. Intel TDX kjører i kjernen. NVIDIA’s GPU-drivere kjører som kernel-moduler. CPU-TEE-attestasjonskjeden avhenger av et pålitelig operativsystem for å rapportere troverdig hva det gjør. Hvis OS-laget under din TEE har tiår gamle latent sårbarheter, og en frontier-modell kan nå finne dem i maskin-hastighet, så avhenger hardware-lagets betingede sikkerhet av et OS-lag hvis sikkerhetsgarantier nettopp har blitt svekket av samme avsløringscyklus.
De tre første hendelsene beskriver hvordan AI-systemer brytes i dag. Mythos beskriver hvor raskt alt under dem, inkludert operativsystemer, kernel-moduler og systembiblioteker, kommer til å bli gjennomgått av maskiner. McKinsey-bruddet utnyttet en SQL-injeksjonssårbarhetsklasse som har eksistert i over to tiår. Sårbarheter av denne vintage er nøyaktig hva modeller i Mythos-klassen er demonstrert å være i stand til å finne i industriell skala.

Mønsteret
I hver enkelt tilfelle var dataene i klartekst i det øyeblikket det skjedde.
Applikasjonslaget prosesserte dem i klartekst. Orkestreringslaget routet dem i klartekst. Hardware-laget, til tross for sine beskyttelser, krevde til slutt dekryptering ved kjørepunktet. OS-laget under alle tre opererte på dem i klartekst av definisjon. Fire lag, fire feil, og på hvert lag var samme betingelse oppfylt: når bruddet skjedde, var dataene lesbar.
Dette er ikke en samling isolerte feil. Det er arkitekturen selv.
Moderne AI-systemer er designet for å operere på lesbar data. Hvert lag, inkludert henting, routing, inferens og verktøy-eksekvering, krever klartekst-tilgang for å fungere. Denne designvalget betyr at ethvert brudd på ethvert lag eksponerer dataene bak det.
Spørsmålet er ikke om et lag vil bli kompromittert. Det er hva angriperen finner når det skjer.
Fra antatt brudd til null eksponering
Bransjen har allerede startet å skifte fra “forhindre brudd” til “antatt brudd.” Men de fleste arkitekturer har ikke fulgt gjennom på implikasjonene.
Hvis brudd er uunngåelig, så er det virkelige spørsmålet ikke hvordan man holder angripere ute. Det er hva som skjer når de kommer inn. Nå er svaret enkelt: de får dataene. For selv om det har blitt investert mye i sikkerhetsinfrastruktur, er dataene fremdeles eksponert i det eksakte øyeblikket de blir verdifulle, når de blir brukt.
Bransjens respons har vært forutsigbar: mer overvåking, raskere oppdaging, flere lag med konfidensiell computing. Disse er forbedringer. Men de løser ikke det grunnleggende problemet. De antar fremdeles at et eller annet lag – enten programvare, hardware eller operasjonelt – kan stole på å holde klartekst trygg.
Alternativet er å fjerne klarteksten helt. Ikke å sikre lagene rundt dataene, men å gjøre dataene selv utilgjengelige for noen som når dem. Beregning på kryptert data, hvor forespørsler, modell-vekt og utdata forblir kryptert gjennom hele pipeline, adresse eksponeringen som hver av disse hendelsene utnyttet.
Fremgang i fullt homomorf kryptering og andre privat-preserverende beregnings-teknikker gjør det mulig å lage arkitekturer som minimerer eller eliminerer klartekst-eksponering, og dette blir stadig mer praktisk for virkelige AI-arbeidsbelastninger. Mens det fremdeles er betydelige ytelses-, skalerbarhets- og implementeringsutfordringer, er målet fundamentalt forskjellig fra tradisjonelle sikkerhetskontroller: å redusere verdi av en vellykket kompromittering, i stedet for bare å gjøre kompromittering mindre sannsynlig.
Skiftet er ikke fra ett sikkerhet-verktøy til et annet. Det er fra å sikre systemer til å redusere eksponering. Fra å stole på infrastruktur til å stole på null-tillit-data. Fra å håndtere risiko til å minimere angrepsflaten selv.
Hva kommer neste
Hard Fork-diskusjonen reiste spørsmålet om hvorvidt cybersecurity er fundamentalt misframstilt. Bevisene fra de siste ukene antyder at svaret er ja, i det minste for AI.
Den gamle modellen antok at systemer kan sikres, brudd kan inneholdes og eksponering kan håndteres. Den nye virkeligheten er at brudd må antas og eksponering minimiseres. Hendelsene beskrevet her antyder at å sikre AI-systemer kan stadig mer avhenge av å redusere mengden sensitiv data som er tilgjengelig når kontrollene feiler.
Sårbarhetene som ble avdekket over disse fire hendelsene er ikke begrenset til ett enkelt lag. De er systemiske. Å adresse dem vil kreve mer enn inkrementelle forbedringer. Det vil kreve et skifte fra å sikre systemer til å redusere eksponering, fra å forsvare perimeteren rundt dataene til å fjerne klarteksten perimeteren var bygget for å beskytte.
AI-sikkerhet er ikke lenger om å holde angripere ute. Det er om å sikre at når de kommer inn, og de kommer, er det ingenting lesbar for dem å finne.












