Kunstig intelligens
Agent Laboratory: Et virtuelt forskningsteam av AMD og Johns Hopkins

Mens alle har snakket om AI-agenter og automatisering, har AMD og Johns Hopkins University arbeidet med å forbedre hvordan mennesker og AI samarbeider i forskning. Deres nye åpne kildekode-rammeverk, Agent Laboratory, er en fullstendig omdefinering av hvordan vitenskapelig forskning kan akselereres gjennom menneske-AI-samarbeid.
Etter å ha sett på flere AI-forskningsrammeverk, skiller Agent Laboratory seg ut med sin praktiske tilnærming. I stedet for å prøve å erstatte menneskelige forskere (som mange eksisterende løsninger), fokuserer det på å gi menneskelige forskeres evner en boost ved å håndtere de tidskrevende aspektene av forskning mens menneskene holder rattet.
Kjerninnovasjonen her er enkel, men kraftfull: I stedet for å drive fullt ut autonom forskning (som ofte fører til tvilsomme resultater), skaper Agent Laboratory et virtuelt laboratorium hvor flere spesialiserte AI-agenter arbeider sammen, hver håndterer forskjellige aspekter av forskningsprosessen mens de holder seg ankret til menneskelig veiledning.
Nedbryting av det virtuelle laboratoriet
Tenk på Agent Laboratory som et velkoordinert forskningsteam, men med AI-agenter som spiller spesialiserte roller. Akkurat som et ekte forskningslaboratorium, har hver agent spesifikke ansvar og ekspertise:
- En PhD-agent håndterer litteraturgjennomgang og forskningsplanlegging
- Postdoktor-agenter hjelper med å finpusse eksperimentelle tilnærminger
- ML-ingeniør-agenter håndterer den tekniske implementeringen
- Professor-agenter vurderer og scorer forskningsresultater
Hva gjør dette systemet særlig interessant, er arbeidsflyten. I motsetning til tradisjonelle AI-verktøy som opererer i isolasjon, skaper Agent Laboratory en samarbeidsmiljø hvor disse agentene samarbeider og bygger på hverandres arbeid.
Prosessene følger en naturlig forskningsfrekvens:
- Litteraturgjennomgang: PhD-agenten gjennomgår akademiske papirer ved hjelp av arXiv API, samler og organiserer relevant forskning
- Planlegging: PhD- og postdoktor-agenter samarbeider om å lage detaljerte forskningsplaner
- Implementering: ML-ingeniør-agenter skriver og tester kode
- Analyse og dokumentasjon: Teamet arbeider sammen for å tolke resultater og generere omfattende rapporter
Men her er det virkelig praktisk: Rammeverket er compute-fleksibelt, noe som betyr at forskere kan tildele ressurser basert på deres tilgang til beregningskraft og budsjettsbegrensninger. Dette gjør det til et verktøy designet for virkelige forskningsmiljøer.

Schmidgall et al.
Den menneskelige faktoren: Der AI møter ekspertise
Mens Agent Laboratory har imponerende automatiseringsmuligheter, skjer det virkelige magi i det de kaller “co-pilot-modus”. I denne innstillingen kan forskere gi tilbakemelding på hvert stadium av prosessen, og skape en ekte samarbeid mellom menneskelig ekspertise og AI-støtte.
Tilbakemeldingsdataene avslører noen interessante innsikter. I autonom modus, scoret Agent Laboratory-genererte papirer en gjennomsnittlig score på 3,8/10 i menneskelig vurdering. Men når forskere engasjerte i co-pilot-modus, hoppet scorene til 4,38/10. Hva er særlig interessant, er hvor disse forbedringene viste seg – papirene scoret betydelig høyere i klarhet (+0,23) og presentasjon (+0,33).
Men her er virkelighetskontrollen: selv med menneskelig involvering, scoret disse papirene fortsatt om lag 1,45 poeng under gjennomsnittlig akseptert NeurIPS-papir (som ligger på 5,85). Dette er ikke et nederlag, men det er en viktig læring om hvordan AI og menneskelig ekspertise må komplementere hverandre.
Vurderingen avslørte noe annet fascinerende: AI-vurderere ga papirene jevnt over 2,3 poeng høyere enn menneskelige vurderere. Dette gapet understreker hvorfor menneskelig tilsyn fortsatt er avgjørende i forskningsvurdering.

Schmidgall et al.
Nedbryting av tallene
Hva betyr noe i et forskningsmiljø? Kostnaden og ytelsen. Agent Laboratorys tilnærming til modell-sammenligning avslører noen overraskende effisiensgevinster i denne sammenhengen.
GPT-4o oppsto som hastighetsmester, fullførte hele arbeidsflyten på bare 1 165,4 sekunder – det er 3,2 ganger raskere enn o1-mini og 5,3 ganger raskere enn o1-preview. Men hva er enda viktigere, er at det bare kostet 2,33 dollar per papir. I sammenligning med tidligere autonome forskningsmetoder som kostet rundt 15 dollar, ser vi på en reduksjon på 84 %.
Se på modell-ytelse:
- o1-preview scoret høyest i nytte og klarhet
- o1-mini oppnådde beste eksperimentelle kvalitetsskår
- GPT-4o lå etter i målinger, men ledet i kostnadseffektivitet
De virkelige implikasjonene her er betydelige.
Forskere kan nå velge sin tilnærming basert på deres spesifikke behov:
- Trenger rask prototyping? GPT-4o tilbyr hastighet og kostnadseffektivitet
- Prioriterer eksperimentell kvalitet? o1-mini kan være ditt beste valg
- Leter etter den mest polerte utgangen? o1-preview viser løfte
Denne fleksibiliteten betyr at forskningsteam kan tilpasse rammeverket til deres ressurser og krav, i stedet for å være låst til en en-size-fits-all-løsning.
Et nytt kapittel i forskning
Etter å ha sett på Agent Laboratorys muligheter og resultater, er jeg overbevist om at vi ser på en betydelig endring i hvordan forskning vil bli utført. Men det er ikke erstatningsnarrativen som ofte dominerer overskriftene – det er noe langt mer nyansert og kraftfullt.
Mens Agent Laboratorys papirer ikke ennå når toppkonferansens standarder på egen hånd, skaper de en ny paradigm for forskningsakselerasjon. Tenk på det som å ha et team av AI-forskningsassistenter som aldri sover, hver spesialisert i forskjellige aspekter av den vitenskapelige prosessen.
Implikasjonene for forskere er dyptgående:
- Tiden brukt på litteraturgjennomgang og grunnleggende kode kan omfordeleres til kreativ idegenerering
- Forskningsideer som kanskje ville blitt lagt på hyllen på grunn av ressursbegrensninger, blir nå mulige
- Evnen til å raskt prototypere og teste hypoteser kan føre til raskere gjennombrudd
Gjeldende begrensninger, som gapet mellom AI- og menneskelig vurdering, er muligheter. Hver iterasjon av disse systemene bringer oss nærmere mer sofistikert forskningssamarbeid mellom mennesker og AI.
Ser fremover, ser jeg tre nøkkelutviklinger som kan forme vitenskapelig oppdagelse:
- Mer sofistikerte menneske-AI-samarbeidsmønster vil oppstå når forskere lærer å utnytte disse verktøyene effektivt
- Kostnads- og tidsbesparelsen kan demokratisere forskning, og tillate mindre laboratorier og institusjoner å drive mer ambisiøse prosjekter
- Den raske prototyping-kapasiteten kan føre til mer eksperimentelle tilnærminger i forskning
Nøkkelen til å maksimere denne potensialet? Å forstå at Agent Laboratory og lignende rammeverk er verktøy for forsterkning, ikke automatisering. Fremtiden for forskning handler ikke om å velge mellom menneskelig ekspertise og AI-kapasiteter – det handler om å finne innovative måter å kombinere dem på.












