Tekoäly
Kuinka hyviä ovat tekoälyagentit oikeassa tutkimuksessa? Syvän tutkimuksen penkin raportti sisältä

Kun suuret kielen mallit (LLM) kehittyvät nopeasti, niiden lupaus voimakkaina tutkimusavustajina kasvaa. Ne eivät enää vain vastaa yksinkertaisiin tosiasiallisiin kysymyksiin – ne ovat käsittelemässä “syvän tutkimuksen” tehtäviä, jotka vaativat monivaiheista päättelyä, ristiriitaisten tietojen arviointia, tietojen etsintää verkosta ja niiden yhdistämistä johdonmukaiseksi tulokseksi.
Tämä kehittyvä kyky markkinoidaan nyt eri tuotemerkeillä suurten laboratorioiden toimesta – OpenAI kutsuu sitä “Syväksi tutkimukseksi”, Anthropic viittaa siihen “Laajennetuksi ajatteluksi”, Google:n Gemini tarjoaa “Haku + Pro” -ominaisuuksia ja Perplexity merkitsee niitä “Pro Haku” tai “Syvä tutkimus”. Mutta kuinka tehokkaita nämä tarjoukset ovat käytännössä? FutureSearch:in uusi raportti, Syvä tutkimuksen penkki (DRB): Verkkotutkimusagenttien arviointi, tarjoaa tähän asti kattavimman arvion – ja tulokset paljastavat sekä vaikuttavat kyvyt että kriittiset puutteet.
Mitä on Syvä tutkimuksen penkki?
FutureSearch -tiimin luoma Syvä tutkimuksen penkki on tarkkaan rakennettu vertailu, jolla arvioidaan tekoälyagenttien suorituskykyä monivaiheisissa, verkkopohjaisissa tutkimustehtävissä. Nämä eivät ole yksinkertaisia kysymyksiä, joilla on suorat vastaukset – ne heijastelevat epäjohdonmukaisia, avoimia haasteita, joita analyytikot, päätöksentekijät ja tutkijat kohtaavat todellisissa tilanteissa.
Vertailu sisältää 89 erillistä tehtävää 8 luokassa, kuten:
- Löydä numero: esim. “Kuinka monta FDA:n luokan II lääkintälaitteiden takaisinottoja tapahtui?”
- Tarkista väite: esim. “Onko ChatGPT 10-kertaisesti energiankulutukseltaan suurempi kuin Google-haku?”
- Kokoelma tietoja: esim. “Työllisyystrendit Yhdysvaltain ohjelmistokehittäjille vuosina 2019-2023”
Kunkin tehtävän tyyppi on huolellisesti rakennettu ihmisen tarkastamilla vastauksilla ja arvioidaan käyttäen jäädytettyä verkkosivujen tietokantaa, jota kutsutaan RetroSearchiksi. Tämä takaa yhdenmukaisuuden mallien arvioinnissa, välttäen live-verkon muuttuvan tilan.
Agenttiarkkitehtuuri: ReAct ja RetroSearch
Syvä tutkimuksen penkin ytimessä on ReAct-arkkitehtuuri, joka on lyhennys “Reason + Act” -termistä. Tämä menetelmä jäljittelee, miten ihmistutkija voisi lähestyä ongelmaa – ajattelemalla tehtävän läpi, suorittamalla toiminnon kuten verkkohaku, tarkkailemalla tuloksia ja sitten päättämällä, jatkaa vai lopettaa.
Kun aiemmat mallit seuraavat tätä silmukkaa eksplisiittisesti, uudet “ajattelu” -mallit usein suorittavat prosessin, upottamalla päättelyn toimiin. Jotta arvioinnit olisivat yhdenmukaisia, DRB esittelee RetroSearchin – mukautetun, staattisen version verkosta. Sen sijaan, että mallit riippuvat live-internetistä, joka muuttuu jatkuvasti, ne käyttävät kuratoitua verkkosivujen arkistoa, joka on haettu työkaluilla kuten Serper, Playwright ja ScraperAPI. Mittakaava on vaikuttava: korkean kompleksisuuden tehtävissä, kuten “Kerää näyttö”, RetroSearch voi tarjota yli 189 000 sivua, kaikki jäädytettyinä ajassa, takaten reilun ja toistettavan testiympäristön.
Mikä tekoälyagentti suoriutuu parhaiten?
Kaikkien kilpailijoiden joukossa OpenAI:n o3 nousi johtoon, saavuttaen 0,51 pistettä mahdollisesta 1,0 Syvä tutkimuksen penkillä. Vaikka se saattaa kuulostaa vaatimattomalta, on tärkeää ymmärtää vertailun haaste: tehtävien epämääräisyyden ja arvostelun vuoksi, jopa virheetön agentti saavuttaisi todennäköisesti korkeintaan 0,8 – mitä tutkijat kutsuvat “melun kattoksi”. Toisin sanoen, parhaat mallit vielä eivät pysty toimimaan hyvin perustutkittujen, johdonmukaisesti toimivien ihmistutkijoiden tavoin.
Silti, johtajan lista tarjoaa paljastavia näkemyksiä. o3 ei ainoastaan johtanut joukkoa vaan teki sen nopeasti ja johdonmukaisesti, osoittaen vahvaa suorituskykyä lähes kaikissa tehtävissä. Anthropicin Claude 3.7 Sonnet seurasi läheisesti, osoittaen monipuolisuutta sekä “ajattelussa” että “ei-ajattelussa” tiloissa. Google:n Gemini 2.5 Pro erottui kyvystään käsitellä tehtäviä, jotka vaativat järjestelmällistä suunnittelua ja askelkohtaista päättelyä. Samaan aikaan avoimen painoisen DeepSeek-R1 tarjosi miellyttävän yllätyksen – se piti vauhtia GPT-4 Turbon kanssa ja kavensi suorituskykyeroa avoimien ja suljettujen mallien välillä.
Kaiken kaikkiaan, selkeä kuva piirtyi: uudet, “ajatteluun kykenevät” mallit suoriutuivat johdonmukaisesti edeltäjiensä paremmin, ja suljetut mallit säilyttivät merkittävän etun avoimiin vaihtoehtoihin nähden.
Missä agentit epäonnistuvat?
Lukemalla epäonnistumismalleja, jotka korostuvat Syvä tutkimuksen penkin raportissa, tuntui yllättävän tutulta. Yksi ärsyttävimmistä asioista, joita olen henkilökohtaisesti kohdannut – erityisesti pitkissä tutkimus- tai sisällönluontisessioissa – on, kun tekoälyagentti yksinkertaisesti unohtaa, mitä teimme. Kun kontekstiruutu venyy, malli usein alkaa menettää langan: avainyksityiskohdat häviävät, tavoitteet hämärtyvät ja vastaukset tuntuvat yhtäkkiä epäjohdonmukaisilta tai tavoitteettomilta. Jossain vaiheessa olen oppinut, että on usein parempi leikata tappiot ja aloittaa alusta, vaikka se tarkoittaisi heittää kaikki mitä on luotu tähän asti.
Tällainen unohtaminen ei ole pelkästään anekdoottinen – se on merkittävin ennustaja epäonnistumiselle Syvä tutkimuksen penkin arvioinnissa. Mutta se ei ole ainoa toistuva ongelma. Raportti korostaa myös, miten jotkut mallit jäävät toistuvan työkalun käyttöön, suorittaen saman haun toistuvasti kuin kiinni silmukassa. Toiset osoittavat heikkoa kyselyiden muodostamista, laiskasti avain-sanamatchaamalla sen sijaan, että ajattelisivat kriittisesti, miten etsintää tehdään tehokkaasti. Ja liian usein agentit joutuvat ennenaikaisiin johtopäätöksiin – toimittamalla puolivalmista vastausta, joka teknisesti täyttää ruudun, mutta jää lyhyeksi oikeasta oivalluksesta.
Jopa parhaimmilla malleilla ero on selkeä. GPT-4 Turbo esimerkiksi osoitti merkittävän taipumuksen unohtaa aiemmat vaiheet, kun taas DeepSeek-R1 oli todennäköisemmin hallusinoimaan tai keksimään uskottavasti kuulostavia, mutta virheellisiä tietoja. Kaiken kaikkiaan, mallit usein epäonnistuivat tarkistamasta lähteitä tai vahvistamasta löytöjä ennen lopullisen tuloksen antamista. Kaikille, jotka ovat riippuvaisia tekoälystä vakavassa työssä, nämä ongelmat tuntuvat liian tutuilta – ja ne korostavat, kuinka pitkälle meillä on edelleen matkaa rakentaa agentteja, jotka voivat todella ajatella ja tutkia kuin ihmiset.
Mitä muistin perusteella suoriutumisesta?
Mielenkiintoisesti, Syvä tutkimuksen penkki arvioi myös niitä, mitä he kutsuvat “työkaluttomaksi” agenteiksi – kielen malleja, jotka toimivat ilman pääsyä ulkoisiin työkaluihin, kuten verkkohakuun tai asiakirjojen hakemiseen. Nämä agentit luottavat täysin sisäisiin koulutusdataansa ja muistiin, generoiden vastauksia pelkästään siitä, mitä he ovat aiemmin oppineet koulutuksen aikana. Käytännössä tämä tarkoittaa, että he eivät voi etsiä mitään tai vahvistaa tietoja – he arvaavat, mitä he “muistavat”.
Yllättäen, nämä työkaluttomat agentit suoriutuivat lähes yhtä hyvin kuin täydelliset tutkimusagentit tiettyjen tehtävien suhteen. Esimerkiksi “Vahvista väite” -tehtävässä, jossa tavoitteena on arvioida lauselman uskottavuutta, he saavuttivat 0,61 pistettä, lähes vastaavan 0,62 keskiarvon työkaluilla varustettujen agenttien kanssa. Tämä osoittaa, että mallit kuten o3 ja Claude ovat vahvoja sisäisiä etuoikeuksia ja voivat usein tunnistaa yleisten väitteiden totuuden ilman, että heidän tarvitsee etsiä verkkoa.
Mutta vaativampien tehtävien kohdalla – kuten “Johda numero”, joka vaatii useiden arvojen yhdistämistä eri lähteistä, tai “Kerää näyttö”, joka riippuu moninaisten tosiasioiden löytämisestä ja arvioinnista kontekstissa – nämä työkaluttomat mallit hajosivat täysin. Ilman ajantasaisia tietoja tai reaaliaikaisia hakumahdollisuuksia heillä ei ollut keinoja tuottaa tarkkoja tai kattavia vastauksia.
Tämä kontrasti korostaa tärkeää nuanssia: vaikka nykyiset LLM:t voivat simuloida “tietämistä” paljon, syvä tutkimus riippuu ei pelkästään muistista, vaan myös ajattelusta ajantasaisilla, verifioiduilla tiedoilla – jotain, mitä vain työkaluilla varustetut agentit voivat tosiaan tarjota.
Loppusanat
DRB-raportti osoittaa yhden asian selväksi: vaikka nykyiset parhaat tekoälyagentit voivat ylittää keskivertoihmisen kapeasti määritellyissä tehtävissä, ne vielä jäävät jälkeen taitavilta, yleisimmistä tutkijoilta – erityisesti suunniteltaessa strategisesti, sopeutuessa prosessin aikana ja ajateltaessa hienovaraisesti.
Tämä aukko tulee erityisesti ilmi pitkissä tai monimutkaisissa istunnoissa – jotain, minkä olen kokenut itse, kun agentti asteittain menettää tehtävän tarkoituksen, johtaen turhauttavaan romahdukseen johdonmukaisuudessa ja hyödyssä.
Se, mikä tekee Syvä tutkimuksen penkin niin arvokkaaksi, on, että se ei ainoastaan testaa pintatason tietämystä – se tutkii työkalujen käytön, muistin, päättelyn ja sopeutumisen leikkauspistettä, tarjoten lähempänä analogian todelliseen maailman tutkimukseen kuin vertailut, kuten MMLU tai GSM8k.
Kun LLM:t jatkavat integroimista vakavaan tietotyöhön, FutureSearch:in työkalut kuten DRB ovat olennaisia arvioimaan, mitä nämä järjestelmät todella tietävät, miten hyvin ne toimivat.










