Ajatusjohtajat

Kuinka hyvin LLM:t voivat todella päättää epäjohdonmukaisista ongelmista?

Published March 28, 2025

Updated April 3, 2026

David Balaban

Generatiivisen AI:n esittely ja evoluutio ovat olleet niin äkkiä ja voimakkaat, että on vaikea ymmärtää, kuinka paljon tämä teknologia on muuttanut elämäämme.

Zoomaa ulos kolmeen vuoteen sitten. Kyllä, AI oli tulemassa yhä läheemmäs, ainakin teoriassa. Useammat ihmiset tunsivat joitakin asioita, joita se voisi tehdä, vaikka siinäkin oli valtavasti väärinymmärryksiä AI:n kyvyistä. Jotenkin teknologia sai samanaikaisesti liian vähän ja liian paljon luottamusta siitä, mitä se voisi saavuttaa. Silti keskivertoihmisen voisi osoittaa ainakin yhden tai kaksi aluetta, joilla AI toimi, suorittaen erittäin erikoistuneita tehtäviä kohtuullisen hyvin, hyvin ohjatuissa ympäristöissä. Mitään muuta kuin tämä oli joko edelleen tutkimuslaboratoriossa tai yksinkertaisesti ei ollut olemassa.

Vertaa tähän nykyhetkeen. Ilman muita taitoja kuin kykyä kirjoittaa lause tai esittää kysymys, maailma on sormiemme välittömässä läheisyydessä. Voimme luoda kuvia, musiikkia ja jopa elokuvia, jotka ovat todella yksilöllisiä ja hämmästyttäviä, ja joilla on kyky häiritä koko teollisuudenaloja. Voimme tehostaa hakukoneprosessiamme esittämällä yksinkertaisen kysymyksen, joka, jos se on muotoiltu oikein, voi luoda sivuja mukautettua sisältöä, joka on tarpeeksi hyvää voidakseen kulkea yliopistossa koulutetun tutkijan tai keskivertotason kolmannen luokan oppilaan tasolla… Jos ne ovat jollain tavoin jo tullut arkiseksi, nämä kyvyt olivat pidetty täysin mahdottomina vain muutama vuosi sitten. Generatiivisen AI:n ala oli olemassa, mutta ei ollut lähtenyt liikkeelle millään tavoin.

Nykyään monet ihmiset ovat kokeilleet generatiivisia AI:ia, kuten ChatGPT:ä, Midjourneyta tai muita työkaluja. Toiset ovat jo ottaneet ne osaksi päivittäistä elämäänsä. Noiden kehityksen nopeus on paukahtanut niin nopeasti, että se on melkein hämmästyttävää. Ja annettujen edistysaskelien perusteella viimeisen kuuden kuukauden aikana, emme epäile, että tulemme olemaan lumoutuneita yhä uudelleen seuraavien vuosien aikana.

Erikoistuneista työkaluista, jotka ovat mukana generatiivisessa AI:ssa, on ollut suorituskyky Retrieval-Augmented Generation (RAG) -järjestelmissä ja niiden kykyä ajatella erityisen monimutkaisten kysymysten kautta. FRAMES-aineiston esittely, josta kerrotaan tarkemmin artikkelissa, miten arviointiaineisto toimii, osoittaa sekä missä nykyinen tila on ja minne se on menossa. Jo FRAMES:in julkaisun jälkeen vuonna 2024, useat alustat ovat jo rikkoneet uusia ennätyksiä kyvyssään päättää hankalista ja monimutkaisista kysymyksistä.

Levitätään FRAMES:iin ja tarkastellaan, miten eri generatiiviset AI-mallit suoriutuvat. Voimme nähdä, miten sekä hajautetut että avoimen lähdekoodin alustat eivät ainoastaan pidä pintansa (erityisesti Sentient Chat), vaan myös antavat käyttäjille selkeän näyn siitä, kuinka hämmästyttävää päättelyä joillakin AI-malleilla on kyky saavuttaa.

FRAMES ikkunana GenAI-aivoihin

FRAMES-aineisto ja sen arviointiprosessi keskittyy 824 ”moniaskeltaiseen” kysymykseen, jotka edellyttävät johtamista, loogista yhdistämistä, useiden eri lähteiden käyttöä tärkeän tiedon hakemiseksi ja kykyä yhdistää ne kaikki loogisesti yhteen vastatakseen kysymykseen. Kysymyksiin tarvitaan 2-15 asiakirjaa vastatakseen niihin oikein, ja ne sisältävät myös tarkoituksella rajoituksia, matemaattisia laskelmia ja johtopäätöksiä sekä kykyä käsitellä aikaperusteista logiikkaa. Toisin sanoen, nämä kysymykset ovat erittäin hankalia ja edustavat todellista maailmanlaajuista tutkimustyötä, jonka ihminen voi tehdä internetissä. Kohtaamme nämä haasteet jatkuvasti, ja meidän on etsittävä hajallaan olevia tärkeitä tietoja internet-lähteistä, yhdistettävä tietoa eri sivustoilta, luotava uutta tietoa laskemalla ja johtamalla, ja ymmärrettävä, miten konsolidoida nämä faktat oikeaan vastaukseen.

Mitä tutkijat löysivät, kun aineisto julkaistiin ja testattiin ensimmäisen kerran, oli, että parhaat GenAI-mallit pystyivät olemaan jollain tavoin tarkkoja (noin 40%) silloin, kun heidän piti vastata yksinkertaisilla menetelmillä, mutta pystyivät saavuttamaan 73%:n tarkin vastausprosentin, jos heille sallittiin kerätä kaikki tarvittavat asiakirjat vastatakseen kysymyksiin. Kyllä, 73%:iin saattaa ei vaikuta vallankumoukselliselta. Mutta jos ymmärtää tarkalleen, mitä on vastattava, luku muuttuu paljon vaikuttavammaksi.

Esimerkiksi yksi tietty kysymys on: ”Mikä vuosi oli bändin johtajan syntymävuosi, joka esitti alun perin kappaleen, jota Kanye Westin kappaleessa Power samplatti?” Miten ihminen lähestyisi tätä ongelmaa? Henkilö saattaisi huomata, että hän tarvitsee kerätä erilaisia tietoja, kuten Kanye Westin kappaleen Power sanoitukset, ja sitten pystyä katsomaan sanoitukset ja tunnistamaan kohdan, jossa toinen kappale on otettu. Me ihmiset voimme kuunnella kappaleen (jopa jos emme ole tuttuja siitä) ja pystyä sanomaan, kun toinen kappale on otettu.

Mutta ajattele: mitä GenAI:n pitäisi saavuttaa, jotta se voisi havaita toisen kappaleen kuin alkuperäisen ”kuunnellessaan” sitä? Tässä on kohta, jossa yksinkertainen kysymys muuttuu todella älykkään AI:n testiksi. Ja jos pystymme löytämään kappaleen, kuuntelemaan sitä ja tunnistamaan samplatun kappaleen, se on vain askel 1. Meidän on vielä selvitettävä, mikä on kappaleen nimi, mikä on bändi, kuka on bändin johtaja, ja mikä on hänen syntymävuotensa.

FRAMES osoittaa, että realististen kysymysten vastaamiseksi tarvitaan valtava määrä ajatteluprosessointia. Tässä on kaksi asiaa, jotka tulevat mieleen.

Ensinnäkin, hajautettujen GenAI-mallien kyky ei ainoastaan kilpailla, vaan myös mahdollisesti hallita tuloksia, on uskomatonta. Kasvava määrä yrityksiä käyttää hajautettua menetelmää skaalataksensa prosessointikykyjään samalla, kun varmistetaan, että suuri yhteisö omistaa ohjelmiston, eikä keskitetty musta laatikko, joka ei jaksa etenemisiään. Yritykset kuten Perplexity ja Sentient johtavat tätä suuntausta, kummallakin on vaikuttavia malleja, jotka suorittavat paremmin kuin alkuperäiset tarkin vastausprosentit, kun FRAMES julkaistiin.

Toinen tekijä on, että pienempi osa näistä AI-malleista ei ainoastaan ole hajautettuja, vaan myös avoimen lähdekoodin. Esimerkiksi Sentient Chat on kumpaakin, ja varhaiset testit osoittavat, kuinka monimutkaisen päättelyn se pystyy saavuttamaan kiitoksella arvokkaasta avoimen lähdekoodin saatavuudesta. FRAMES-kysymys vastataan käyttäen melkein samaa ajatteluprosessia kuin ihminen, ja sen päättelyyksityiskohdat ovat saatavilla tarkastelua varten. Ehkä vielä mielenkiintoisemmin, heidän alustansa on rakennettu useista malleista, jotka voivat hienosäätää tiettyä näkökulmaa ja suorituskykyä, vaikka hienosäätöprosessi joissakin GenAI-malleissa johtaa heikentyneeseen tarkin vastausprosenttiin. Sentient Chatin tapauksessa on kehitetty useita eri malleja. Esimerkiksi äskettäin kehitetty malli ”Dobby 8B” pystyy sekä ylittämään FRAMES-benchmarkin että kehittämään erityisen pro-krypto- ja pro-vapausasenteen, joka vaikuttaa mallin näkökulmaan, kun se prosessoi tietoja ja kehittää vastausta.

Horisontissa

Avain kaikkiin näihin hämmästyttäviin innovaatioihin on nopeus, jolla olemme päässeet tähän. Meidän on tunnustettava, että niin nopeasti kuin tämä teknologia on evoluutionut, se kehittyy vain nopeammin lähitulevaisuudessa. Pystymme erityisesti hajautettujen ja avoimen lähdekoodin GenAI-mallien kautta näkemään, miten järjestelmän älykkyys alkaa ylittää yhä useammin meidän omaa, ja mitä se tarkoittaa tulevaisuudelle.

Related Topics:david balaban FRAMES thought leaders

David Balaban

David Balaban on tietoturvatutkija, jolla on yli 17 vuoden kokemus haittaohjelmien analyysistä ja virustorjuntaohjelmistojen arvioinnista. David johtaa MacSecurity.net ja Privacy-PC.com -projekteja, jotka esittävät asiantuntijalausuntoja nykyisistä tietoturva-asioista, mukaan lukien sosiaalinen insinööritaito, haittaohjelmat, penetraatiotestaus, uhkien tunnistaminen, verkkoyksityisyys ja valkoinen hattuhakkerointi. Davidilla on vankka tausta haittaohjelmien vianmäärityksessä, ja viimeaikaisessa keskittyminen on ollut kiristyssalkkujen vastaisissa toimissa.

Unite.AI

Kuinka hyvin LLM:t voivat todella päättää epäjohdonmukaisista ongelmista?

FRAMES ikkunana GenAI-aivoihin

Horisontissa

You may like