Intervjuer
Shahar Azulay, VD och medgrundare av Groundcover

Shahar Azulay, VD och medgrundare av Groundcover Àr en stÀndig ledare inom forskning och utveckling. Shahar har erfarenhet inom cybersÀkerhet och maskininlÀrning efter att ha arbetat som ledare i företag som Apple, DayTwo och Cymotive Technologies. Shahar tillbringade mÄnga Är inom cyberavdelningen vid den israeliska premiÀrministerns kansli och har tre examina i fysik, elektroteknik och datavetenskap frÄn Technion Israel Institute of Technology samt Tel Avivs universitet. Shahar strÀvar efter att anvÀnda tekniska lÀrdomar frÄn denna rika bakgrund och föra dem till dagens molnbaserade slagfÀlt i den vassaste och mest innovativa formen för att göra utvecklingsvÀrlden till en bÀttre plats.
ground Àr en molnbaserad observationsplattform utformad för att ge ingenjörsteam fullstÀndig insyn i sina system i realtid utan komplexiteten eller kostnaden för traditionella övervakningsverktyg. Byggd pÄ eBPF-teknik samlar och korrelerar den loggar, mÀtvÀrden, spÄr och hÀndelser över molnbaserade och Kubernetes-miljöer utan kodÀndringar, vilket möjliggör snabbare rotorsaksanalys och tydligare systeminsikt. Plattformen betonar förutsÀgbar prissÀttning, flexibel distribution som hÄller data i kundens moln och heltÀckande observationsförmÄga som omfattar infrastruktur, applikationer och moderna AI-drivna arbetsbelastningar.
NĂ€r du ser tillbaka pĂ„ din resa â frĂ„n att leda cyberforsknings- och utvecklingsteam i Israels premiĂ€rministers kansli till att hantera maskininlĂ€rningsinitiativ pĂ„ Apple â vilka erfarenheter drev dig slutligen mot att grunda Groundcover, och nĂ€r insĂ„g du först bristen pĂ„ observerbarhet för moderna AI-system?
Drivkraften att grunda groundcover kom frĂ„n min tid pĂ„ Apple och DayTwo. Ăven med enorma budgetar satt vi fast med att vĂ€lja mellan att betala en förmögenhet för att logga allt eller att sampla och flyga i blindo. DĂ„ letade vi efter en teknik som skulle lösa det. NĂ€r vi vĂ€l stötte pĂ„ Extended Berkeley Packet Filter (eBPF) var det tydligt att det skulle förĂ€ndra allt. eBPF lĂ„ter oss se allt som hĂ€nder i kĂ€rnan utan att förlita oss pĂ„ applikationsĂ€ndringar. Jag kunde inte förstĂ„ varför observationsverktyg inte utnyttjade det. AI-gapet blev tydligt senare. NĂ€r vĂ„r Kubernetes-plattform mognat sĂ„g vi kunder rusa in i GenAI-distributioner medan de behandlade LLM:er som svarta lĂ„dor. De visste att modellen svarade, men inte varför den betedde sig oförutsĂ€gbart eller varför kostnaderna steg. Vi insĂ„g att agentiska arbetsflöden helt enkelt Ă€r komplexa, icke-deterministiska mikrotjĂ€nster som behöver samma zero-touch-insyn som vi redan hade byggt.
Hur pÄverkade din bakgrund inom cybersÀkerhet, inbyggda system och maskininlÀrningsforskning och utveckling visionen bakom groundcover, och vilka tidiga utmaningar mötte du nÀr du byggde ett företag med fokus pÄ observerbarhet för LLM-drivna och agentiska applikationer?
Min cyberbakgrund formade företagets DNA. I underrÀttelsevÀrlden antar man att man inte kontrollerar applikationen. Det Àr den metoden som gör att Groundcover inte krÀver instrumentering. Jag vet av erfarenhet att det snabbaste sÀttet att blockera implementering Àr att be utvecklare att Àndra kod. Den svÄraste tidiga utmaningen med LLM-övervakning var integritet. Observerbarhet för AI fÄngar upp uppmaningar som kan innehÄlla kÀnsliga PII eller IP. Min bakgrund gjorde det uppenbart att företag inte ville att den informationen skulle lÀmna deras miljö. Det Àr dÀrför vi byggde vÄr molnbaserade arkitektur, vilket gör det möjligt för oss att ge djup insyn i agenternas beteende samtidigt som all data hÄlls i kundens egen miljö.
Hur definierar du LLM-observerbarhet, och vad skiljer den frÄn traditionell övervakning eller ML-övervakning?
LLM-observabilitet Ă€r praxisen att instrumentera och övervaka produktionssystem som anvĂ€nder stora sprĂ„kmodeller sĂ„ att du kan fĂ„nga hela kontexten för varje inferens: prompt, kontext, slutförande, tokenanvĂ€ndning, latens, fel, modellmetadata och helst nedströms feedback eller kvalitetssignaler. IstĂ€llet för att bara frĂ„ga "Ăr tjĂ€nsten igĂ„ng och snabb?" eller "Fick den hĂ€r begĂ€ran ett fel?", hjĂ€lper LLM-observabilitet dig att svara pĂ„ frĂ„gor som "Varför lyckades eller misslyckades just den hĂ€r begĂ€ran?", "Vad hĂ€nde egentligen i detta flerstegsarbetsflöde?" och "Hur pĂ„verkar Ă€ndringar av prompter, kontext eller modellversioner kostnad, latens och utdatakvalitet?". Det skiljer sig mycket frĂ„n traditionell övervakning eller till och med klassisk ML-övervakning. Ăldre metoder Ă€r anpassade för deterministiska system, infrastrukturmĂ€tvĂ€rden och statiska tröskelvĂ€rden. LLM-applikationer Ă€r icke-deterministiska, öppna och mycket kontextberoende. FramgĂ„ng Ă€r ofta semantisk och subjektiv, inte bara en statuskod pĂ„ 200 vs 500. Det innebĂ€r att du mĂ„ste spĂ„ra indata och utdata, förstĂ„ verktygsanrop och hĂ€mtningssteg, utvĂ€rdera svar pĂ„ saker som hallucinationer eller policyövertrĂ€delser, och koppla kostnader och förseningar pĂ„ tokennivĂ„ tillbaka till den omgivande applikationen och infrastrukturen.
Vilka utmaningar medför LLM-drivna applikationer som gör traditionella observerbarhetsverktyg otillrÀckliga?
LLM-drivna system introducerar flera utmaningar som blottlÀgger begrÀnsningarna hos traditionella verktyg:
- Komplexa arbetsflöden i flera steg â Vi gick frĂ„n enkla flöden av typen "anropa en modell, fĂ„ ett svar" till agenter med flera steg, pipelines i flera steg, förstĂ€rkt generering av hĂ€mtning och verktygsanvĂ€ndning. Ett tyst fel i nĂ„got av dessa steg, sĂ„som hĂ€mtning, berikning, inbĂ€ddning, verktygsanrop eller modellanrop, kan förstöra hela upplevelsen. Traditionell övervakning ger dig vanligtvis inte en komplett vy pĂ„ spĂ„rningsnivĂ„ över dessa kedjor med instruktioner och svar inkluderade.
- Snabbt utvecklande AI-stackar â Team lĂ€gger till nya modeller, verktyg och leverantörer i en takt de aldrig sett tidigare. I mĂ„nga företag kan ingen med sĂ€kerhet lista vilka modeller som Ă€r i produktion vid varje given tidpunkt. Klassisk observerbarhet förutsĂ€tter vanligtvis att man har tid att instrumentera SDK:er, omdistribuera och noggrant sammanstĂ€lla det man mĂ€ter. Det hĂ„ller helt enkelt inte jĂ€mna steg med hur snabbt AI antas.
- Tokenbaserad ekonomi och kvoter â PrissĂ€ttning och hastighetsgrĂ€nser Ă€r knutna till tokens och kontextlĂ€ngd, vilka ofta styrs av utvecklare, prompter eller anvĂ€ndarbeteende, inte av central drift. Traditionella verktyg Ă€r inte byggda för att visa dig "vem som brĂ€nde hur mĂ„nga tokens pĂ„ vilken modell, för vilket arbetsflöde, med vilken latens".
- Semantisk korrekthet istĂ€llet för binĂ€r framgĂ„ng â En LLM kan returnera 200 och Ă€ndĂ„ hallucinera, glida bort frĂ„n din prompt eller bryta mot policyn. Traditionella verktyg ser det som en framgĂ„ng. Du behöver observerbarhet som kan lyfta fram prompter och svar och ge dig tillrĂ€ckligt med kontext för att inspektera beteende och, med tiden, lĂ€gga till automatiserade kvalitetskontroller.
- KĂ€nsliga indata som flödar till tredje part â LLM:er bjuder in anvĂ€ndare att dela mycket kĂ€nslig information via chattliknande grĂ€nssnitt. Nu ansvarar du för den informationen, var den lagras och vilka leverantörer som ser den. Konventionell SaaS-baserad observerbarhet som skickar all telemetri till en tredje part Ă€r ofta oacceptabel för dessa arbetsbelastningar.
Allt detta innebÀr att LLM-system krÀver observerbarhet som Àr AI-medveten, kontextrik och betydligt mindre beroende av manuell instrumentering Àn de verktyg som de flesta team anvÀnder idag.
Vilka signaler eller mÀtvÀrden Àr viktigast för att förstÄ prestandan och kvaliteten hos LLM-system, inklusive latens, tokenanvÀndning och prompt-/responsbeteende?
Det finns nÄgra kategorier av signaler som Àr mycket viktiga i praktiken:
Latens och dataflöde
- End-to-end-latens per begÀran, inklusive modelltid och omgivande applikationstid.
- SvansförtÀndelser (P90, P95, P99) per modell och per arbetsflöde.
- Dataflöde per modell, rutt och tjÀnst, sÄ att du vet vart lasten verkligen gÄr.
TokenanvÀndning och kostnadsdrivare
- Indata- och utdatatokens per begÀran, uppdelade efter modell.
- Aggregerad tokenanvÀndning över tid per modell, team, anvÀndare och arbetsflöde.
- Kontextstorlekar för hÀmtningstunga pipelines sÄ att du kan se nÀr prompter exploderar.
- Det hĂ€r Ă€r vad som lĂ„ter dig svara pĂ„ frĂ„gan âVem spenderar egentligen vĂ„r AI-budget och pĂ„ vad?â
Prompt- och responsbeteende
- De faktiska prompt- och svarsnyttolasten pÄ representativa spÄr, inklusive verktygsanrop och resonemangsvÀgar.
- Vilka verktyg LLM valde att anropa och i vilken sekvens.
- Varians i svar för liknande uppmaningar sÄ att du kan avgöra hur stabilt beteendet Àr.
Tillförlitlighet och fel
- Modellspecifika felfrekvenser och typer (leverantörsfel, timeouts, autentiseringsproblem, kvotfel).
- Fel i omgivande arbetsflöde, sÄsom verktygstimeouts eller hÀmtningsfel, korrelerade med LLM-anropet.
Klassisk infrakontext
- Container-CPU, minne och nÀtverksstatistik för de tjÀnster som orkestrerar dina LLM-anrop.
- Korrelerade loggar som beskriver vad programmet försökte göra.
NÀr man kan se allt detta pÄ ett stÀlle, gÄr LLM-observerbarheten frÄn "Jag vet att nÄgot Àr lÄngsamt eller dyrt" till "Jag vet exakt vilken modell, vilket promptmönster och vilken tjÀnst som Àr ansvariga och varför".
Hur kan observerbarhet hjÀlpa team att upptÀcka tysta fel, sÄsom snabb avvikelse, hallucinationer eller gradvis försÀmring av utskriftskvaliteten?
Tysta fel i LLM-system intrÀffar vanligtvis nÀr allt ser "grönt" ut pÄ infrastrukturnivÄ, men det faktiska beteendet avviker. Observerbarhet hjÀlper pÄ nÄgra sÀtt:
- SpĂ„ra hela arbetsflödet, inte bara modellanropet â Genom att samla in hela sökvĂ€gen för en förfrĂ„gan, klient till tjĂ€nst, hĂ€mtning till modell till verktyg, kan du se var beteendet har förĂ€ndrats. Till exempel kanske hĂ€mtningen började returnera fĂ€rre dokument, eller sĂ„ misslyckas ett verktygsanrop intermittent och modellen improviserar.
- Ha uppmaningar, sammanhang och svar i sikte â NĂ€r du kan inspektera prompter och svar tillsammans med spĂ„r blir det mycket enklare att upptĂ€cka fall dĂ€r en ny promptversion, en ny systeminstruktion eller en ny kontextkĂ€lla Ă€ndrade beteendet, Ă€ven om latens och felfrekvenser förblev desamma.
- Filtrering och slicing pĂ„ semantiska villkor â NĂ€r du har omfattande LLM-telemetri kan du filtrera ner till saker som "berggrundsanrop under en sekund", "förfrĂ„gningar som anvĂ€nder den hĂ€r modellfamiljen" eller "spĂ„r som involverar den hĂ€r specifika rutten", och sedan lĂ€sa uppmaningarna och svaren för att se om modellen driver eller hallucinerar i ett specifikt scenario.
- Aviseringar om SLO:er pĂ„ affĂ€rsnivĂ„ â Du kan definiera SLO:er som "alla LLM-anrop under en sekund bryter mot vĂ„rt anvĂ€ndarvĂ€nliga SLA" och utlösa varningar nĂ€r dessa villkor Ă€r uppfyllda. Med tiden kan liknande SLO:er kopplas till kvalitetspoĂ€ng eller policykontroller sĂ„ att du fĂ„r en varning nĂ€r kvaliteten försĂ€mras, inte bara nĂ€r infrastrukturen slutar fungera.
Eftersom observerbarhetslagret har tillgÄng till bÄde AI-specifika signaler och klassiska loggar, mÀtvÀrden och spÄr, blir det en naturlig plats att upptÀcka problem som annars i det tysta skulle försÀmra anvÀndarupplevelsen.
Hur stöder Groundcovers metod diagnostisering av oförutsÀgbar latens eller ovÀntat beteende i flerstegsarbetsflöden för agenter och verktygsanrop?
Groundcover anvÀnder en metod som Àr utformad för moderna AI-system. Vi anvÀnder en eBPF-baserad sensor pÄ kÀrnnivÄ för att observera trafik över mikrotjÀnster utan kodÀndringar eller omdistributioner. SÄ snart du introducerar ett LLM-arbetsflöde kan vi automatiskt upptÀcka dessa anrop. Om du börjar anvÀnda en ny modell som Anthropic, OpenAI eller Bedrock imorgon, fÄngar Groundcover upp den trafiken automatiskt. Det ger dig:
- End-to-end-spĂ„r av multi-hop-arbetsflöden â Du ser hela sökvĂ€gen för en förfrĂ„gan över olika tjĂ€nster, inklusive var en LLM eller ett verktyg anvĂ€nds.
- DjupgĂ„ende kontext för varje LLM-samtal â Varje anrop inkluderar anvĂ€nd modell, latens, tokenanvĂ€ndning, prompter, svar samt korrelerade loggar och infrastrukturmĂ„tt.
- Kraftfull filtrering av latens och villkor â Till exempel kan du filtrera efter alla Claude 3.5-anrop under en sekund och omedelbart inspektera de spĂ„r som bröt mot ditt SLA.
- Aviseringar och instrumentpaneler kopplade till LLM-beteende â NĂ€r informationen Ă€r tillgĂ€nglig kan du skapa aviseringar för SLA-övertrĂ€delser eller bygga dashboards som spĂ„rar latens, dataflöde, tokenanvĂ€ndning och fel.
Eftersom allt samlas in i utkanten av eBPF och lagras i ditt eget moln fÄr du denna höggranulara vy utan att lÀgga till instrument i varje agent- eller verktygsanrop.
Vilka datasÀkerhets- och efterlevnadsrisker ser du framtrÀda i LLM-implementeringar, och hur kan observerbarhet bidra till att minska dessa risker?
LLM-implementeringar medför vissa unika datarisker:
- ObegrĂ€nsad anvĂ€ndarinmatning â AnvĂ€ndare kan skriva in extremt kĂ€nslig information i chattrobotar och AI-drivna grĂ€nssnitt. Det kan inkludera personuppgifter, kunddata eller reglerad information som du aldrig avsett att samla in.
- Tredjepartsmodellleverantörer â NĂ€r du vĂ€l skickar den informationen till en extern LLM-leverantör Ă€r du ansvarig för vart den tog vĂ€gen, hur den lagras och vilka underleverantörer som Ă€r inblandade. Det har stora konsekvenser för GDPR, datalagring och kundernas förtroende.
- Telemetri som en andra kopia av kĂ€nsliga data â Om din observerbarhetsstack skickar fullstĂ€ndiga nyttolaster till en SaaS-leverantör har du nu en annan kopia av den kĂ€nsliga informationen utanför din miljö.
Marköverdragets arkitektur Àr utformad för att ta itu med just dessa problem:
- Vi anvÀnder en "bring your own cloud"-modell dÀr hela observerbarhetsbackend körs inuti ditt molnkonto, i ett underkonto, som ett fullstÀndigt hanterat dataplan. Kontrollplanet som skalar och hanterar det drivs av oss, men vi varken kommer Ät, lagrar eller bearbetar dina telemetridata.
- Eftersom vi sÀkert kan samla in nyttolaster i din egen miljö kan du observera uppmaningar, svar och arbetsflöden utan att informationen nÄgonsin lÀmnar ditt moln. Det finns ingen tredjepartslagring av dina LLM-spÄr och ingen extra datautmatning att oroa sig för.
- Med den insynen kan du se vem som laddar upp vad och vart det flödar, upptÀcka ovÀntad anvÀndning av kÀnslig data och tillÀmpa policyer kring vilka modeller och regioner som Àr tillÄtna.
Med andra ord blir observerbarhet inte bara ett tillförlitlighets- och kostnadsverktyg, utan ocksÄ en viktig kontrollpunkt för integritet, datalagring och efterlevnad.
NÀr organisationer skalar frÄn en LLM-integration till mÄnga AI-drivna tjÀnster, vilka operativa utmaningar tenderar att uppstÄ kring synlighet, tillförlitlighet och kostnad?
Den första integrationen Àr vanligtvis en enda modell i ett enda arbetsflöde. I det skedet kÀnns saker och ting hanterbara. SÄ snart team ser vÀrde exploderar anvÀndningen och flera utmaningar uppstÄr:
- Modell- och leverantörsspridning â Team testar nya modeller stĂ€ndigt. Det blir snabbt oklart vilka som Ă€r i produktion och hur de anvĂ€nds.
- Kostnadsöverraskningar frĂ„n tokenanvĂ€ndning â Tokenförbrukningen ökar med kontextlĂ€ngd och arbetsflödets komplexitet. Utan insyn i tokenanvĂ€ndningen per modell och arbetsflöde Ă€r det mycket svĂ„rt att hantera kostnader.
- Tillförlitlighetsberoenden hos externa leverantörer â AnvĂ€ndarriktade API:er blir kĂ€nsliga för modellfördröjning eller fel, vilket kan störa SLA:er Ă€ven nĂ€r kĂ€rninfrastrukturen Ă€r felfri.
- VĂ€xande Instrumentation-skuld â Traditionell observerbarhet förutsĂ€tter att man kan lĂ€gga till instrumentering vid behov. I snabbrörliga AI-stackar har utvecklare sĂ€llan tid för det.
groundcover ÄtgÀrdar dessa genom att automatiskt upptÀcka AI-trafik och sedan ge dig:
- Central insyn i vilka modeller och leverantörer som anvÀnds.
- Instrumentpaneler som visar latens, dataflöde och tokenanvÀndning över tid.
- Korrelation mellan LLM-beteende och de tjÀnster som Àr beroende av det
- Aviseringar för AI-drivna SLO-intrÄng.
Det gör det mycket enklare att skala frÄn "en cool AI-funktion" till "AI Àr invÀvd i dussintals kritiska tjÀnster" utan att tappa kontrollen.
Hur förvÀntar du dig att LLM-observabiliteten kommer att utvecklas under de kommande fem Ären i takt med att agentisk AI, orkestrering av flera modeller och regeltryck accelererar?
Vi Àr fortfarande i början. Under de kommande fem Ären förvÀntar jag mig nÄgra stora förÀndringar:
- FrĂ„n förfrĂ„gningsnivĂ„ till agentnivĂ„ förstĂ„else â Observerbarheten kommer att utökas för att fĂ„nga verktygssekvenser, resonemangsvĂ€gar och Ă„terförsökslogik, inte bara modellanrop.
- Rikare semantiska och politiska signaler â Automatiserade kvalitetskontroller av hallucinationer, sĂ€kerhetsproblem och varumĂ€rkesanpassning kommer att bli standardmĂ€tvĂ€rden.
- TĂ€tare koppling till styrning och integritet â I takt med att regleringen vĂ€xer kommer observerbarhet ocksĂ„ att fungera som ett verkstĂ€llighets- och revisionslager för datalagring, lagring och godkĂ€nd modellanvĂ€ndning.
- Korsmodell, optimering av flera leverantörer â Teamen kommer att dirigera trafik över modeller dynamiskt baserat pĂ„ prestanda och kostnad, vĂ€gledda av observerbarhetsdata i realtid.
- Mindre manuell instrumentering â Tekniker som eBPF-baserad insamling och automatisk identifiering kommer att bli standard, sĂ„ att team kan förnya sig utan att sakta ner.
Kort sagt kommer observerbarhet inom LLM att utvecklas frÄn "bra att ha dashboards för AI" till det centrala nervsystem som kopplar samman tillförlitlighet, kostnadskontroll, datastyrning och produktkvalitet i allt en organisation gör med AI.
Tack för den fina intervjun, lÀsare som vill veta mer bör besöka ground.












