Intervjuer

Rebecca Qian, medgrundare och teknisk chef för Patronus AI – Intervjuserie

publicerade Januari 22, 2026

Antoine Tardif, VD och grundare av Unite.AI

Rebecca Qian är medgrundare och teknisk chef för Patronus AI, med nästan ett decennium av erfarenhet av att bygga maskininlärningssystem för produktion i skärningspunkten mellan NLP, förkroppsligad AI och infrastruktur. På Facebook AI arbetade hon med forskning och implementering, utbildade FairBERTa, en stor språkmodell utformad med rättvisemål, utvecklade en demografisk störningsmodell för att skriva om Wikipedia-innehåll och ledde semantisk parsning för robotassistenter. Hon byggde också human-in-the-loop-pipelines för förkroppsligade agenter och skapade infrastrukturverktyg som Continuous Contrast Set Mining, vilket antogs i Facebooks infrastrukturteam och presenterades på ICSE. Hon har bidragit till open source-projekt inklusive FacebookResearch/fairo och Droidlet semantic parsing notebooks. Som grundare fokuserar hon nu på skalbar tillsyn, förstärkningsinlärning och implementering av säkra, miljömedvetna AI-agenter.

Patronus AI är ett San Francisco-baserat företag som tillhandahåller en forskningsdriven plattform för att utvärdera, övervaka och optimera stora språkmodeller (LLM) och AI-agenter för att hjälpa utvecklare att leverera pålitliga generativa AI-produkter med förtroende. Plattformen erbjuder automatiserade utvärderingsverktyg, benchmarking, analyser, anpassade datamängder och agentspecifika miljöer som identifierar prestandaproblem som hallucinationer, säkerhetsrisker eller logikfel, vilket gör det möjligt för team att kontinuerligt förbättra och felsöka AI-system i verkliga användningsfall. Patronus betjänar företagskunder och teknikpartners genom att ge dem möjlighet att poängsätta modellbeteende, upptäcka fel i stor skala och förbättra tillförlitlighet och prestanda i AI-produktionsapplikationer.

Du har en gedigen bakgrund inom att bygga ML-system på Facebook AI, inklusive arbete med FairBERTa och human-in-the-loop-pipelines. Hur formade den erfarenheten ditt perspektiv på AI-implementering och säkerhet i verkligheten?

Att arbeta på Meta AI fick mig att fokusera på vad som krävs för att göra modeller tillförlitliga i praktiken – särskilt kring ansvarsfull NLP. Jag arbetade med rättvisefokuserad språkmodellering, som att utbilda juridikspecialister med rättvisemål, och jag såg på nära håll hur svårt det är att utvärdera och tolka modellresultat. Det har format hur jag tänker kring säkerhet. Om man inte kan mäta och förstå modellbeteende är det svårt att implementera AI med tillförsikt i den verkliga världen.

Vad motiverade dig att gå från forskningsteknik till entreprenörskap, att vara med och grunda Patronus AI, och vilket problem kändes mest angeläget att lösa just då?

Utvärdering blev ett hinder inom AI vid den tiden. Jag lämnade Meta AI i april för att starta Patronus med Anand eftersom jag hade sett på nära håll hur svårt det är att utvärdera och tolka AI-resultat. Och när generativ AI väl började användas i företagsarbetsflöden var det uppenbart att detta inte längre bara var ett labbproblem.

Vi hörde samma sak hela tiden från företag. De ville anta juridiska ledningssystem, men de kunde inte testa dem på ett tillförlitligt sätt, övervaka dem eller förstå fellägen som hallucinationer, särskilt i reglerade branscher där det finns väldigt liten tolerans för fel.

Så det akuta problemet, till en början, var att hitta ett sätt att automatisera och skala upp modellutvärdering – att poängsätta modeller i verkliga scenarier, generera kontradiktoriska testfall och benchmarka – så att team kunde driftsätta med tillförsikt istället för att gissa.

Patronus introducerade nyligen generativa simulatorer som adaptiva miljöer för AI-agenter. Vilka begränsningar i befintliga utvärderings- eller träningsmetoder ledde er till denna riktning?

Vi fortsatte att se en växande skillnad mellan hur AI-agenter utvärderas och hur de förväntas prestera i verkligheten. Traditionella riktmärken mäter isolerade förmågor vid en bestämd tidpunkt, men verkligt arbete är dynamiskt. Uppgifter avbryts, krav ändras mitt i körningen och beslut sammansätts över långa tidshorisonter. Agenter kan se starka ut på statiska tester och ändå misslyckas rejält när de väl är driftsatta. Allt eftersom agenter förbättras mättar de också fasta riktmärken, vilket gör att lärandet planar ut. Generativa simulatorer framträdde som ett sätt att ersätta statiska tester med levande miljöer som anpassar sig allt eftersom agenten lär sig.

Hur ser du att generativa simulatorer kommer att förändra hur AI-agenter tränas och utvärderas jämfört med statiska riktmärken eller fasta datamängder?

Förändringen är att riktmärken slutar vara tester och börjar bli miljöer. Istället för att presentera en fast uppsättning frågor genererar simulatorn uppgiften, de omgivande förhållandena och utvärderingslogiken i farten. Allt eftersom agenten beter sig och förbättras anpassar sig miljön. Det svekar den traditionella gränsen mellan träning och utvärdering. Du frågar dig inte längre om en agent klarar ett riktmärke, utan om den kan fungera tillförlitligt över tid i ett dynamiskt system.

Ur ett tekniskt perspektiv, vilka är de centrala arkitektoniska idéerna bakom generativa simulatorer, särskilt kring uppgiftsgenerering, miljödynamik och belöningsstrukturer?

På en övergripande nivå kombinerar generativa simulatorer förstärkningsinlärning med generering av adaptiv miljö. Simulatorn kan skapa nya uppgifter, uppdatera världens regler dynamiskt och utvärdera en agents handlingar i realtid. En nyckelkomponent är det vi kallar en läroplansjusterare, som analyserar agenters beteende och modifierar svårighetsgraden och strukturen i scenarier för att hålla lärandet produktivt. Belöningsstrukturer är utformade för att vara verifierbara och domänspecifika, så agenter styrs mot korrekt beteende snarare än ytliga genvägar.

I takt med att AI-utvärdering och agentverktyg blir mer trångt, vad är det som tydligast skiljer Patronus tillvägagångssätt åt?

Vårt fokus ligger på ekologisk validitet. Vi designar miljöer som speglar verkliga mänskliga arbetsflöden, inklusive avbrott, kontextväxlingar, verktygsanvändning och flerstegsresonemang. Istället för att optimera agenter för att se bra ut på fördefinierade tester fokuserar vi på att exponera de typer av fel som är viktiga i produktionen. Simulatorn utvärderar beteende över tid, inte bara utdata isolerat.

Vilka typer av uppgifter eller fellägen gynnas mest av simulatorbaserad utvärdering jämfört med konventionell testning?

Långsiktiga uppgifter i flera steg gynnas mest. Även små felfrekvenser per steg kan leda till stora felfrekvenser på komplexa uppgifter, vilket statiska riktmärken inte fångar upp. Simulatorbaserad utvärdering gör det möjligt att upptäcka fel relaterade till att hålla sig på rätt spår över tid, hantera avbrott, koordinera verktygsanvändning och anpassa sig när förhållandena ändras mitt i en uppgift.

Hur förändrar miljöbaserat lärande ditt sätt att tänka kring AI-säkerhet, och introducerar generativa simulatorer nya risker som belöningshackning eller framväxande fellägen?

Miljöbaserat lärande gör faktiskt många säkerhetsproblem lättare att upptäcka. Belöningshackning tenderar att frodas i statiska miljöer där agenter kan utnyttja fasta kryphål. I generativa simulatorer är själva miljön ett rörligt mål, vilket gör dessa genvägar svårare att upprätthålla. Med det sagt krävs fortfarande noggrann design kring belöningar och tillsyn. Fördelen med miljöer är att de ger dig mycket mer kontroll och insyn i agenters beteende än statiska riktmärken någonsin skulle kunna.

Om du ser fem år framåt, var ser du Patronus AI, både vad gäller teknisk ambition och branschmässig påverkan?

Vi tror att miljöer håller på att bli grundläggande infrastruktur för AI. I takt med att agenter går från att svara på frågor till att utföra verkligt arbete, kommer de miljöer där de lär sig att forma hur kapabla och pålitliga de blir. Vår långsiktiga ambition är att förvandla verkliga arbetsflöden till strukturerade miljöer som agenter kontinuerligt kan lära sig av. Den traditionella separationen mellan utvärdering och utbildning håller på att kollapsa, och vi tror att det skiftet kommer att definiera nästa våg av AI-system.

Tack för den fina intervjun, läsare som vill veta mer bör besöka Patronus AI.

Relaterade ämnen:Intervju patronus Patronus AI

Antoine Tardif

Antoine är en visionär ledare och grundande partner till Unite.AI, driven av en orubblig passion för att forma och främja framtiden för AI och robotik. En serieentreprenör, han tror att AI kommer att vara lika störande för samhället som elektricitet, och fångas ofta på att tjata om potentialen hos störande teknologier och AGI.

Som en futurist, är han dedikerad till att utforska hur dessa innovationer kommer att forma vår värld. Dessutom är han grundare av Securities.io, en plattform fokuserad på att investera i banbrytande teknologier som omdefinierar framtiden och omformar hela sektorer.

Unite.AI

Rebecca Qian, medgrundare och teknisk chef för Patronus AI – Intervjuserie

Du må gilla