Tankeledere

Hvorfor chatbot-sikkerhetstiltak er feil trygghetsgrense

Published March 18, 2026

Updated April 25, 2026

Mayank Kumar, Founding AI Engineer, DeepTempo

Bedrifts-AI har kommet langt forbi proof-of-concept-stadiet. 23% av organisasjonene har allerede skalert agens-AI-systemer et sted i sin bedrift, og 62% er i det minste eksperimenterende med AI-agenter. Disse er ikke forskningsprosjekter. De er produksjonsutsteder, innbygget i arbeidsflyter som berører kodebiblioteker, kundedata, interne APIer og operasjonell infrastruktur.

Industriens respons på denne veksten har i stor grad fokusert på hva som skjer før en agent blir satt i live. Leverandører og forskere har brukt mye energi på forsvarsmekanismer før utrulling: publisering av skaleringspolitikk, forsterkning av grunnmodeller, filtrering av inndata, sikring av AI-levirkeden og gjennomføring av justering på treningstid. Store AI-leverandører har gjort betydelige investeringer i sikkerhetsverktøy for utviklere, og styrker en sentral antagelse: hvis modellen og dens inndata kontrolleres, kan nedstrømsrisiko holdes tilbake.

Dette er en rimelig instinkt, men en stadig mer ufullstendig en.

Prompten er ikke en sikkerhetsperimeter

Sikkerhetstiltak som opererer på modellgrensen fordeler i hovedsak team som kontrollerer applikasjonskoden, modellkonfigurasjonen og den underliggende infrastrukturen. De tilbyr langt mindre beskyttelse til forsvarere som er ansvarlige for å sikre AI-systemer de ikke bygget og ikke kan modifisere. Dette er et betydelig blindpunkt, og motstandere har allerede funnet det.

OpenAIs siste trusselintelligensrapport dokumenterer nettopp denne dynamikken. Trusselaktører utnytter aktivt ChatGPT og lignende verktøy i produksjonsmiljøer, ikke ved å finne opp nye angrepsmetoder, men ved å innlemme AI i eksisterende arbeidsflyter for å flytte raskere. Rekognosering blir mer effektiv. Sosial ingenjørkunst skalerer. Malware-utvikling akselererer. Angrepsflaten har ikke fundamentalt endret seg; hastigheten og volumet av utnyttelse har.

Enda mer talende er hvordan angriperne reagerte når disse verktøyene presset tilbake. OpenAI observerte at trusselaktører raskt muterte sine prompter, bevarte den underliggende intensjonen samtidig som de syklerte gjennom overflatenivåvariasjoner for å unngå front-end-kontroller. Dette er et mønster som sikkerhetspraktikere har sett før. Statiske forsvar, enten signature-basert antivirus eller inndatafiltrering, holder ikke mot motstandere som itererer raskere enn regeloppdateringer kan følge.

Udfordringen forverres når agenter får autonomi. Moderne AI-agenter opererer ikke i en enkelt utveksling. De utfører multi-trinns handlingsekvenser, og påkaller legitime verktøy og tillatelser på måter som ser helt normale ut i isolasjon. En agent som bruker gyldige legitimasjoner for å oppramse interne APIer utløser ingen advarsel. En agent som aksesserer følsomme data butikker under det som ser ut som en rutinemessig arbeidsflyt, genererer ingen umiddelbar flagg. Hver enkelt handling passerer inspeksjonen; faren bor i kombinasjonen og sekvensen.

Når trusselen flytter nedstrøms

Sikkerhetsteam som forsvarer AI-utsteder i dag står overfor en strukturell misforhold. Verktøyene som er tilgjengelige for dem er i stor grad bygget for å resonnere om hva en modell er tillatt å si. Den faktiske risikoen de må håndtere er hva en agent gjør over systemer, nettverk og identiteter når den har fått tillatelser og er satt løs i en produksjonsmiljø.

Prompt-basert sikkerhet deler de grunnleggende svakhetene til tidligere regel-drevne sikkerhetsmetoder. De er skjøre fordi de avhenger av å forutsi angrepsmønster på forhånd. De er reaktive fordi de krever at noen har observert og kodifisert trusselen før forsvarsverket kan fungere. Og de er forbigått av motstandere som har adoptert AI-assistert iterasjon som standard praksis. En forsvarer som avhenger av inndatafiltrering for å fange en trusselaktør som bruker en språkmodell for å generere ferske prompt-variasjoner, er i en grunnleggende tapende posisjon.

Den virkelige eksponeringsflaten etter utrulling. Agent-drevne handlinger propagerer gjennom miljøer på måter som ingen pre-launch-test kan fullstendig forutse. Agenter møter kanter, interagerer med datakilder de ikke var designet for å håndtere, mottar inndata fra systemer utenfor den opprinnelige arkitekturen og tar beslutninger som forsterker over tid. Pre-launch-test er et øyeblikksbilde; produksjon er en kontinuerlig strøm. Å forsvare bare øyeblikksbildet betyr å akseptere at alt som skjer i strømmen er effektivt umonitort.

Å flytte sikkerhetsgrensen til agent-atferd

Bygging av AI-resiliens krever en annen ramme, og målet bør ikke være å beskytte modellgrensen. Det bør være å detektere angrep-intensjon gjennom de observerbare konsekvensene av agent-handlinger. Dette er en meningsfull distinksjon. Intensjon dukker ikke alltid opp i hva en agent sier eller hva inndata den mottar.

Sikring av AI-systemer må utvides beyond alignsjekk og robusthetsevaluering til kontinuerlig vurdering av hvordan agenter oppfører seg når de interagerer med virkelige verktøy, virkelige APIer og virkelige data. Statiske evalueringer på utrullings tid er nødvendig, men utilstrekkelig. Trussel-miljøet som en agent opererer i, endrer konstant. Agent-atferd må overvåkes med samme kontinuitet.

Dette er et problem som prompt-forsterkning ikke kan løse. Deteksjon av ondsinnet intensjon som oppstår gjennom handlingsekvenser, krever modeller som kan forstå kompleks, sekvensiell atferd i operasjonelle miljøer. Deep learning-grunnmodeller som er spesialbygget for atferdsanalyse, kan gjøre dette på måter som regel-basert systemer og tradisjonell SIEM-verktøy ikke kan. De lærer hva som ser normalt ut over hele konteksten av agent-atferd, og de bringer frem avvik som indikerer at noe har endret seg, selv om ingen enkelt handling ville utløse en konvensjonell advarsel.

Den underliggende logikken holder uavhengig av utrullingskonteksten: sikkerhet forankret på prompt-laget vil konsekvent tape mot angripere som opererer på handling-laget. Forsvaret må flytte til hvor trusselen faktisk bor.

Hva sikkerhetsteam bør gjøre nå

For sikkerhetsledere som prøver å komme foran dette, kan noen praktiske skifter lukke gapet mellom hvor forsvar ligger nå og hvor de må være.

Vurdere AI-sikkerhet over hele applikasjonsstaken. Grunnmodellen er ett lag. Like viktig er hvordan agenter oppfører seg når de er utrullet i produksjon, hva verktøy de kaller, hva tillatelser de bruker og hvordan disse valgene utvikler seg over tid. Sikkerhetsvurderinger som stopper ved modellgrensen lar den operasjonelle overflaten stort sett ueksaminert.

Gjennomføre minst mulig tillatelse på agent-nivå. AI-agenter bør ha tilgang bare til de verktøyene, API-ene og dataene som er nødvendige for deres designerte funksjon. Denne begrensningen betyr selv når agentens utdata ser harmløse ut. Begrensning av omfang reduserer skadeområdet til en kompromittert agent og skaper klarere atferdsbaseliner som gjør anomali-deteksjon mer effektiv.

Behandle agenter som identiteter som genererer telemetri. Hver handling en agent utfører, er et datapunkt. Sikkerhetsteam bør bygge deteksjonslogikk rundt agent-initierte handlingsekvenser, ikke bare bruker-promptene som går foran dem. Denne omdefineringen flytter overvåking fra hva noen ba agenten om å gjøre, til hva agenten faktisk gjorde, som er der angrep-intensjon blir synlig.

Investere i kontinuerlig atferds-overvåking med deteksjonsmodeller som er spesialbygget for denne oppgaven. Identifisering av ondsinnet intensjon som oppstår gjennom handlingsekvenser, krever spesialisert evne. Konvensjonelle overvåkingsverktøy ble bygget for menneske-generert aktivitet-mønster. Agent-atferd, med sin hastighet, volum og multi-trinns struktur, krever deteksjons-infrastruktur designet fra bunnen av med denne konteksten i mente.

Prioritere kollektivt forsvar. AI-drevne angreps-teknikker utvikler seg raskere enn noen enkelt organisasjon kan spore. Delt forskning, åpen samarbeid og fellesskaps-trusselintelligens er ikke valgfrie komplementer til en AI-sikkerhetsstrategi; de er kjerneinnganger. Forsvarerne som holder seg oppdaterte, er de som bidrar til og trekker fra fellesskaps-kunnskap.

Atferdssikkerhet leverer faktisk

For sikkerhetsteam som gjør denne skiftet, er den operative avkastningen konkrete. Å forankre deteksjon i agent-atferd i stedet for modell-utdata, muliggjør tidligere identifisering av ondsinnet intensjon, selv når angrep er skjulte, adaptive eller krypterte. Angripere som suksessfullt muterer sine prompter forbi inndata-filtre, må likevel handle. Disse handlingene etterlater spor. Atferds-deteksjon finner disse sporene før skade propagerer.

Kanskje mest betydelig er at denne tilnærmingen gir organisasjonene en troverdig vei til å utrulle AI-agenter i stor skala uten å akseptere proporsjonal sikkerhetsrisiko. Spørsmålet som holder mange bedrifter tilbake, er ikke om AI-agenter kan levere verdi; det er om de kan utrulles med tilstrekkelig tillit til at sikkerhetsposturen ikke forringes når utrulling øker. Atferdssikkerhet, basert på hvordan agenter faktisk opererer, gir denne tilliten på en måte som prompt-basert kontroll ikke kan.

Sikkerhetsgrensen ble tegnet på feil sted, og denne feilen gjorde mening når AI var et verktøy som ventet på inndata. Det venter ikke lenger, Agens-systemer handler, kjeder, eskalerer og forsterker over miljøer som ingen pre-utrullings-test kunne forutse. Organisasjoner som erkjenner dette tidligst, vil være de som faktisk skalerer AI med tillit. Alle andre vil bruke de neste årene med å oppdage, brudd for brudd, at å kontrollere hva en modell sa, var aldri det samme som å kontrollere hva den gjorde.

Related Topics:chatbot chatbots DeepTempo

Mayank Kumar, Founding AI Engineer, DeepTempo

Mayank Kumar er grunnleggende AI-ingeniør i DeepTempo, der han leder design og utvikling av selskapets grunnleggende Log Language Model (LogLM). Med en sterk akademisk og forskningsbakgrunn innen generativ og multimodal AI, bringer han spesialisert ekspertise til å bygge domenespesifikke modeller som forbedrer trusseldeteksjon og -respons i cybersikkerhetsmiljøer.