Intervjuer
Rebecca Qian, medgrundare och teknisk chef för Patronus AI â Intervjuserie

Rebecca Qian Àr medgrundare och teknisk chef för Patronus AI, med nÀstan ett decennium av erfarenhet av att bygga maskininlÀrningssystem för produktion i skÀrningspunkten mellan NLP, förkroppsligad AI och infrastruktur. PÄ Facebook AI arbetade hon med forskning och implementering, utbildade FairBERTa, en stor sprÄkmodell utformad med rÀttvisemÄl, utvecklade en demografisk störningsmodell för att skriva om Wikipedia-innehÄll och ledde semantisk parsning för robotassistenter. Hon byggde ocksÄ human-in-the-loop-pipelines för förkroppsligade agenter och skapade infrastrukturverktyg som Continuous Contrast Set Mining, vilket antogs i Facebooks infrastrukturteam och presenterades pÄ ICSE. Hon har bidragit till open source-projekt inklusive FacebookResearch/fairo och Droidlet semantic parsing notebooks. Som grundare fokuserar hon nu pÄ skalbar tillsyn, förstÀrkningsinlÀrning och implementering av sÀkra, miljömedvetna AI-agenter.
Patronus AI Àr ett San Francisco-baserat företag som tillhandahÄller en forskningsdriven plattform för att utvÀrdera, övervaka och optimera stora sprÄkmodeller (LLM) och AI-agenter för att hjÀlpa utvecklare att leverera pÄlitliga generativa AI-produkter med förtroende. Plattformen erbjuder automatiserade utvÀrderingsverktyg, benchmarking, analyser, anpassade datamÀngder och agentspecifika miljöer som identifierar prestandaproblem som hallucinationer, sÀkerhetsrisker eller logikfel, vilket gör det möjligt för team att kontinuerligt förbÀttra och felsöka AI-system i verkliga anvÀndningsfall. Patronus betjÀnar företagskunder och teknikpartners genom att ge dem möjlighet att poÀngsÀtta modellbeteende, upptÀcka fel i stor skala och förbÀttra tillförlitlighet och prestanda i AI-produktionsapplikationer.
Du har en gedigen bakgrund inom att bygga ML-system pÄ Facebook AI, inklusive arbete med FairBERTa och human-in-the-loop-pipelines. Hur formade den erfarenheten ditt perspektiv pÄ AI-implementering och sÀkerhet i verkligheten?
Att arbeta pĂ„ Meta AI fick mig att fokusera pĂ„ vad som krĂ€vs för att göra modeller tillförlitliga i praktiken â sĂ€rskilt kring ansvarsfull NLP. Jag arbetade med rĂ€ttvisefokuserad sprĂ„kmodellering, som att utbilda juridikspecialister med rĂ€ttvisemĂ„l, och jag sĂ„g pĂ„ nĂ€ra hĂ„ll hur svĂ„rt det Ă€r att utvĂ€rdera och tolka modellresultat. Det har format hur jag tĂ€nker kring sĂ€kerhet. Om man inte kan mĂ€ta och förstĂ„ modellbeteende Ă€r det svĂ„rt att implementera AI med tillförsikt i den verkliga vĂ€rlden.
Vad motiverade dig att gÄ frÄn forskningsteknik till entreprenörskap, att vara med och grunda Patronus AI, och vilket problem kÀndes mest angelÀget att lösa just dÄ?
UtvÀrdering blev ett hinder inom AI vid den tiden. Jag lÀmnade Meta AI i april för att starta Patronus med Anand eftersom jag hade sett pÄ nÀra hÄll hur svÄrt det Àr att utvÀrdera och tolka AI-resultat. Och nÀr generativ AI vÀl började anvÀndas i företagsarbetsflöden var det uppenbart att detta inte lÀngre bara var ett labbproblem.
Vi hörde samma sak hela tiden frÄn företag. De ville anta juridiska ledningssystem, men de kunde inte testa dem pÄ ett tillförlitligt sÀtt, övervaka dem eller förstÄ fellÀgen som hallucinationer, sÀrskilt i reglerade branscher dÀr det finns vÀldigt liten tolerans för fel.
SĂ„ det akuta problemet, till en början, var att hitta ett sĂ€tt att automatisera och skala upp modellutvĂ€rdering â att poĂ€ngsĂ€tta modeller i verkliga scenarier, generera kontradiktoriska testfall och benchmarka â sĂ„ att team kunde driftsĂ€tta med tillförsikt istĂ€llet för att gissa.
Patronus introducerade nyligen generativa simulatorer som adaptiva miljöer för AI-agenter. Vilka begrÀnsningar i befintliga utvÀrderings- eller trÀningsmetoder ledde er till denna riktning?
Vi fortsatte att se en vÀxande skillnad mellan hur AI-agenter utvÀrderas och hur de förvÀntas prestera i verkligheten. Traditionella riktmÀrken mÀter isolerade förmÄgor vid en bestÀmd tidpunkt, men verkligt arbete Àr dynamiskt. Uppgifter avbryts, krav Àndras mitt i körningen och beslut sammansÀtts över lÄnga tidshorisonter. Agenter kan se starka ut pÄ statiska tester och ÀndÄ misslyckas rejÀlt nÀr de vÀl Àr driftsatta. Allt eftersom agenter förbÀttras mÀttar de ocksÄ fasta riktmÀrken, vilket gör att lÀrandet planar ut. Generativa simulatorer framtrÀdde som ett sÀtt att ersÀtta statiska tester med levande miljöer som anpassar sig allt eftersom agenten lÀr sig.
Hur ser du att generativa simulatorer kommer att förÀndra hur AI-agenter trÀnas och utvÀrderas jÀmfört med statiska riktmÀrken eller fasta datamÀngder?
FörÀndringen Àr att riktmÀrken slutar vara tester och börjar bli miljöer. IstÀllet för att presentera en fast uppsÀttning frÄgor genererar simulatorn uppgiften, de omgivande förhÄllandena och utvÀrderingslogiken i farten. Allt eftersom agenten beter sig och förbÀttras anpassar sig miljön. Det svekar den traditionella grÀnsen mellan trÀning och utvÀrdering. Du frÄgar dig inte lÀngre om en agent klarar ett riktmÀrke, utan om den kan fungera tillförlitligt över tid i ett dynamiskt system.
Ur ett tekniskt perspektiv, vilka Àr de centrala arkitektoniska idéerna bakom generativa simulatorer, sÀrskilt kring uppgiftsgenerering, miljödynamik och belöningsstrukturer?
PÄ en övergripande nivÄ kombinerar generativa simulatorer förstÀrkningsinlÀrning med generering av adaptiv miljö. Simulatorn kan skapa nya uppgifter, uppdatera vÀrldens regler dynamiskt och utvÀrdera en agents handlingar i realtid. En nyckelkomponent Àr det vi kallar en lÀroplansjusterare, som analyserar agenters beteende och modifierar svÄrighetsgraden och strukturen i scenarier för att hÄlla lÀrandet produktivt. Belöningsstrukturer Àr utformade för att vara verifierbara och domÀnspecifika, sÄ agenter styrs mot korrekt beteende snarare Àn ytliga genvÀgar.
I takt med att AI-utvÀrdering och agentverktyg blir mer trÄngt, vad Àr det som tydligast skiljer Patronus tillvÀgagÄngssÀtt Ät?
VÄrt fokus ligger pÄ ekologisk validitet. Vi designar miljöer som speglar verkliga mÀnskliga arbetsflöden, inklusive avbrott, kontextvÀxlingar, verktygsanvÀndning och flerstegsresonemang. IstÀllet för att optimera agenter för att se bra ut pÄ fördefinierade tester fokuserar vi pÄ att exponera de typer av fel som Àr viktiga i produktionen. Simulatorn utvÀrderar beteende över tid, inte bara utdata isolerat.
Vilka typer av uppgifter eller fellÀgen gynnas mest av simulatorbaserad utvÀrdering jÀmfört med konventionell testning?
LĂ„ngsiktiga uppgifter i flera steg gynnas mest. Ăven smĂ„ felfrekvenser per steg kan leda till stora felfrekvenser pĂ„ komplexa uppgifter, vilket statiska riktmĂ€rken inte fĂ„ngar upp. Simulatorbaserad utvĂ€rdering gör det möjligt att upptĂ€cka fel relaterade till att hĂ„lla sig pĂ„ rĂ€tt spĂ„r över tid, hantera avbrott, koordinera verktygsanvĂ€ndning och anpassa sig nĂ€r förhĂ„llandena Ă€ndras mitt i en uppgift.
Hur förÀndrar miljöbaserat lÀrande ditt sÀtt att tÀnka kring AI-sÀkerhet, och introducerar generativa simulatorer nya risker som belöningshackning eller framvÀxande fellÀgen?
Miljöbaserat lÀrande gör faktiskt mÄnga sÀkerhetsproblem lÀttare att upptÀcka. Belöningshackning tenderar att frodas i statiska miljöer dÀr agenter kan utnyttja fasta kryphÄl. I generativa simulatorer Àr sjÀlva miljön ett rörligt mÄl, vilket gör dessa genvÀgar svÄrare att upprÀtthÄlla. Med det sagt krÀvs fortfarande noggrann design kring belöningar och tillsyn. Fördelen med miljöer Àr att de ger dig mycket mer kontroll och insyn i agenters beteende Àn statiska riktmÀrken nÄgonsin skulle kunna.
Om du ser fem Är framÄt, var ser du Patronus AI, bÄde vad gÀller teknisk ambition och branschmÀssig pÄverkan?
Vi tror att miljöer hÄller pÄ att bli grundlÀggande infrastruktur för AI. I takt med att agenter gÄr frÄn att svara pÄ frÄgor till att utföra verkligt arbete, kommer de miljöer dÀr de lÀr sig att forma hur kapabla och pÄlitliga de blir. VÄr lÄngsiktiga ambition Àr att förvandla verkliga arbetsflöden till strukturerade miljöer som agenter kontinuerligt kan lÀra sig av. Den traditionella separationen mellan utvÀrdering och utbildning hÄller pÄ att kollapsa, och vi tror att det skiftet kommer att definiera nÀsta vÄg av AI-system.
Tack för den fina intervjun, lÀsare som vill veta mer bör besöka Patronus AI.












