Ajatusten johtajat
Kuinka hyvin LLM:t voivat todella järkeillä sotkuisten ongelmien läpi?

Käyttöönotto ja kehitys generatiivinen tekoäly ovat olleet niin äkillisiä ja intensiivisiä, että on itse asiassa melko vaikeaa ymmärtää täysin, kuinka paljon tämä tekniikka on muuttanut elämäämme.
Loitonna vain kolme vuotta sitten. Kyllä, tekoäly oli yleistymässä, ainakin teoriassa. Yhä useammat ihmiset tiesivät osan siitä, mitä se voisi tehdä, vaikka siitä huolimatta tekoälyn ominaisuuksista syntyi valtavia väärinkäsityksiä. Jotenkin teknologialle annettiin samanaikaisesti liian vähän ja liikaa tunnustusta sille, mitä sillä todella saavutettiin. Silti keskivertoihminen voisi osoittaa ainakin yhden tai kaksi aluetta, joilla tekoäly oli työssään suorittaen erittäin erikoistuneita tehtäviä melko hyvin, erittäin kontrolloiduissa ympäristöissä. Kaikki tämän lisäksi oli joko edelleen tutkimuslaboratoriossa tai sitä ei yksinkertaisesti ollut olemassa.
Vertaa tätä nykypäivään. Ilman muita taitoja kuin kyky kirjoittaa lause tai esittää kysymys, maailma on ulottuvillamme. Voimme luoda kuvia, musiikkia ja jopa elokuvia, jotka ovat todella ainutlaatuisia ja uskomattomia ja jotka voivat häiritä kokonaisia toimialoja. Voimme tehostaa hakukoneemme prosessia esittämällä yksinkertaisen kysymyksen, joka oikein kehystettynä voi luoda sivuja mukautettua sisältöä, joka on riittävän hyvää läpäisemään yliopiston kouluttamana tutkijana… tai keskimääräisenä kolmannen luokkalaisena, jos määritämme POV:n. Vaikka niistä on jotenkin vain vuodessa tai kahdessa tullut yleisiä, näitä ominaisuuksia pidettiin aivan mahdottomina vielä muutama vuosi sitten. Generatiivisen tekoälyn kenttä oli olemassa, mutta se ei ollut lähtenyt millään tavalla nousuun.
Nykyään monet ihmiset ovat kokeilleet luovaa tekoälyä, kuten ChatGPT:tä, Midjourneya tai muita työkaluja. Toiset ovat jo sisällyttäneet ne jokapäiväiseen elämäänsä. Nopeus, jolla nämä ovat kehittyneet, on rakkuloita lähes hälyttäväksi. Ja kun otetaan huomioon viimeisten kuuden kuukauden edistysaskel, olemme epäilemättä räjähtäneet, yhä uudelleen ja uudelleen, muutaman seuraavan vuoden aikana.
Eräs erityinen työkalu generatiivisessa tekoälyssä on ollut Retrieval-Augmented Generation (RAG) -järjestelmien suorituskyky ja niiden kyky ajatella erityisen monimutkaisia kyselyitä. Esittely FRAMES tietojoukko, joka on selitetty yksityiskohtaisesti kohdassa artikkeli siitä, miten arviointitietoaineisto toimii, näyttää sekä missä tekniikan taso on nyt ja mihin se on menossa. Jopa FRAMESin käyttöönoton jälkeen vuoden 2024 lopulla, monet alustat ovat jo rikkoneet uusia ennätyksiä kyvyssään perustella vaikeita ja monimutkaisia kyselyitä.
Sukellaanpa siihen, mitä FRAMESilla on tarkoitus arvioida ja kuinka hyvin erilaiset generatiiviset tekoälymallit toimivat. Voimme nähdä, kuinka sekä hajauttaminen että avoimen lähdekoodin alustat eivät vain pidä paikkaansa (erityisesti Sentient Chat), niiden avulla käyttäjät voivat saada selkeän kuvan siitä hämmästyttävästä päättelystä, jonka jotkut tekoälymallit pystyvät saavuttamaan.
FRAMES ikkunana GenAI Brainiin
FRAMES-tietojoukko ja sen arviointiprosessi keskittyvät 824 "multi-hop" -kysymykseen, jotka on suunniteltu vaatimaan päätelmiä, loogista yhdistämistä pisteisiin, useiden eri lähteiden käyttöä tärkeimpien tietojen hakemiseen ja kykyä yhdistää ne kaikki loogisesti yhteen vastaamaan kysymykseen. Kysymykset tarvitsevat kahdesta 15:een dokumenttia vastatakseen niihin oikein ja sisältävät myös määrätietoisesti rajoitteita, matemaattisia laskelmia ja päätelmiä sekä kykyä käsitellä aikaperusteista logiikkaa. Toisin sanoen nämä kysymykset ovat äärimmäisen vaikeita ja edustavat todella todellista tutkimustyötä, jota ihminen saattaa tehdä Internetissä. Käsittelemme näitä haasteita koko ajan ja joudumme etsimään hajallaan olevia keskeisiä tietoja Internet-lähteiden merestä, kokoamalla tietoa eri sivustojen perusteella, luomalla uutta tietoa laskemalla ja päättelemällä sekä ymmärtämällä, kuinka nämä tosiasiat voidaan yhdistää oikeaksi vastaukseksi kysymykseen.
Se, mitä tutkijat havaitsivat, kun tietojoukko julkaistiin ja testattiin ensimmäisen kerran, on huippu GenAI mallit pystyivät olemaan jonkin verran tarkkoja (noin 40 %), kun heidän oli vastattava yksivaiheisilla menetelmillä, mutta he voivat saavuttaa 73 % tarkkuuden, jos heidän annettiin kerätä kaikki tarvittavat asiakirjat kysymykseen vastaamiseksi. Kyllä, 73 % ei ehkä vaikuta vallankumoukselta. Mutta jos ymmärrät tarkalleen, mihin on vastattava, numerosta tulee paljon vaikuttavampi.
Esimerkiksi yksi erityinen kysymys on: "Minä vuonna syntyi yhtyeen johtaja, joka alun perin esitti Kanye Westin Power-kappaleessa näytetyn kappaleen?" Miten ihminen ratkaisisi tämän ongelman? Henkilö saattaa nähdä, että hänen on kerättävä erilaisia tietoelementtejä, kuten sanat Kanye Westin "Power" -kappaleeseen, ja sitten voitava katsoa sanat läpi ja tunnistaa kappaleen kohta, joka todella ottaa näytteitä toisesta kappaleesta. Me ihmiset voisimme luultavasti kuunnella kappaletta (vaikka emme olisi sitä tunteneet) ja pystyisimme kertomaan, milloin jokin muu kappale on näytekappale.
Mutta ajattele sitä: mitä GenAI:n olisi suoritettava havaitakseen muun kuin alkuperäisen kappaleen sitä "kuunnellen"? Tässä peruskysymyksestä tulee erinomainen testi todella älykkäästä tekoälystä. Ja jos pystyimme löytämään kappaleen, kuuntelemaan sen ja tunnistamaan näytekappaleet, se on vain vaihe 1. Meidän on vielä selvitettävä, mikä kappaleen nimi on, mikä bändi on, kuka bändin johtaja on ja minä vuonna kyseinen henkilö syntyi.
FRAMES osoittaa, että realistisiin kysymyksiin vastaaminen vaatii valtavasti ajatuksenkäsittelyä. Tässä tulee mieleen kaksi asiaa.
Ensinnäkin kyky hajautettu GenAI-mallit, jotka eivät vain kilpaile, vaan mahdollisesti hallitsevat tuloksia, ovat uskomattomia. Yhä useammat yritykset käyttävät hajautettua menetelmää prosessointikykynsä skaalaamiseen ja varmistavat samalla, että ohjelmiston omistaa suuri yhteisö, ei keskitetty musta laatikko, joka ei jaa edistystään. Yritykset, kuten Perplexity ja Sentient, johtavat tätä trendiä, ja kummallakin mahtavat mallit suoriutuivat ensimmäisten tarkkuusennätysten yläpuolella, kun FRAMES julkaistiin.
Toinen elementti on, että pienempi määrä näistä tekoälymalleista ei ole vain hajautettuja, vaan ne ovat avoimen lähdekoodin. Esimerkiksi Sentient Chat on molemmat, ja varhaiset testit osoittavat, kuinka monimutkainen sen päättely voi olla korvaamattoman avoimen lähdekoodin pääsyn ansiosta. Yllä olevaan FRAMES-kysymykseen vastataan käyttämällä paljon samaa ajatteluprosessia kuin ihminen käyttäisi, ja sen perustelut ovat saatavilla tarkastettavaksi. Ehkä vielä mielenkiintoisempaa on, että heidän alustansa on rakennettu useiksi malleiksi, jotka voivat hienosäätää tiettyä perspektiiviä ja suorituskykyä, vaikka joidenkin GenAI-mallien hienosäätöprosessi johtaa heikentyneeseen tarkkuuteen. Sentient Chatin tapauksessa on kehitetty monia erilaisia malleja. Esimerkiksi uusi malli nimeltä "Dobby 8B" pystyy sekä ylittämään FRAMES-benchmarkin, että kehittämään selkeän krypto- ja vapausmielisen asenteen, joka vaikuttaa mallin perspektiiviin, kun se käsittelee tietoja ja kehittää vastausta.
Horisontissa
Avain kaikkiin näihin hämmästyttäviin innovaatioihin on nopea nopeus, joka toi meidät tänne. Meidän on myönnettävä, että niin nopeasti kuin tämä tekniikka on kehittynyt, se tulee kehittymään vielä nopeammin lähitulevaisuudessa. Näemme varsinkin hajautetuissa ja avoimen lähdekoodin GenAI-malleissa sen ratkaisevan kynnyksen, jossa järjestelmän älykkyys alkaa ylittää yhä enemmän omaamme ja mitä se tarkoittaa tulevaisuuden kannalta.