Connect with us

Kun tekoäly ajattelee kuin ihmiset: LLMien ja agenttien mielen tutkiskelu

Ajatusjohtajat

Kun tekoäly ajattelee kuin ihmiset: LLMien ja agenttien mielen tutkiskelu

mm

Tänään LLMit ja agentit oppivat, analysoivat ja tekevät päätöksiä tavalla, joka voi hämärtää rajan niiden algoritmisen “ajattelun” ja ihmismielen välillä. Niiden rakentamiseen käytetyt lähestymistavat muistuttavat jo valmiiksi kognitiivisia prosessejamme, ja niiden koulutuksen laajuus ylittää ihmiskokemuksen useilla kertaluokilla. Tämä herättää kysymyksen: luommeiko työkalun, joka laajentaa kykyjämme, vai annammeko syntyä uudenlaiselle mielelle, jonka seurauksia ei vielä voida ennustaa?

Miten mallit ajattelevat

On tärkeää erottaa LLMien ja agenttien käsitteet. Vertauskuvana tietokoneella LLM voidaan verrata yhteen sen komponenteista, esimerkiksi prosessoriin. Agentti on kuitenkin koko järjestelmä, “emolevy”, johon on kytketty erilaisia moduuleja: muisti, grafiikkakortti ja verkkoyhteys. Vastaavasti agentti on monimutkainen järjestelmä, joka voi sisältää yhden tai useamman LLM:n, johon on lisätty päätöksentekomekanismit ja työkalut vuorovaikutukseen ulkoympäristön kanssa.

Jos tarkastelemme yksittäisen LLM:n toimintaa, se kaikki palautuu mallien tunnistamiseen. Kun agentti kuitenkin ketjuttaa useita LLM:iä, voidaan sanoa, että se “ajattelee”, vaikka tämä prosessi on edelleen rakennettu mallien varaan. Agentti rakentaa logiikan mallien välisen vuorovaikutuksen: esimerkiksi yksi LLM analysoi tehtävän, ja sen perusteella agentti määrittää, mitä toimintaa toinen LLM tulisi suorittaa.

Ihmisen ajattelu toimii samalla tavalla: luotamme kertyneeseen tietoon ja malleihin, valitsemme ne oikeaan aikaan, prosessoidaan niitä ja muodostamme johtopäätöksiä. Tätä prosessia kutsutaan päättelyksi.

ChatGPT:llä, kuten ihmisellä, on kaksi tyyppiä muistia: lyhytaikainen ja pitkäaikainen. Ero on siinä, että ihmisillä pääsy näihin muistitasoniin on monimutkaisempaa eikä aina lineaarista.

Lyhytaikainen muisti on tietoa, jota parhaillaan käsitellään. Ihmiselle se voi olla esimerkiksi viisi minuuttia sitten sanottu asia: hän saattaa muistaa sen tai ei. GPT ottaa kuitenkin aina huomioon kaiken “kontekstiuksen” sisällön – se ei voi ohittaa tai jättää tätä tietoa huomioimatta.

Pitkäaikainen muisti ihmisillä koostuu muistoista, jotka eivät aina ole aktiivisia ja voivat tulla esiin vain tiettyjen laukaisevien tekijöiden myötä: lapsuudenmuisto, trauma tai esimerkiksi työskentely psykologin kanssa. GPT:llä on samankaltainen logiikka: se ei “muista” tietoa, ellei sitä erikseen aktivoita. Esimerkiksi ohje “Älä koskaan kysy minulta tätä kysymystä uudelleen” tai “Osoittelet aina minua muodollisesti” voidaan tallentaa pitkäaikaiseen muistiin ja soveltaa jokaisessa istunnossa.

Toinen esimerkki pitkäaikaisesta muistista ovat tallennetut asiakirjat. Oletetaan, että olet ladannut GPT:lle ohjeen markkinatutkimuksen suorittamiseksi. Malli voi tallentaa sen muistiin, mutta se ei tarkoita, että se viittaa kyseiseen asiakirjaan jokaisella kysymyksellä. Jos kysyt: “Voitko suunnata taskulampun Kuuhun?”, GPT jättää ohjeen huomioimatta. Mutta jos pyynnössä on avainsanoja, jotka vastaavat asiakirjan tekstiä, malli voi “muistaa” sen.

Tämä mekanismi toteutetaan RAG (Retrieval-Augmented Generation) -lähestymistavalla, jossa malli saa pääsyn tallennettuihin tietoihin relevanttien vihjeiden kautta vektorigrafiikkaan perustuvien tietokantojen avulla.

Näin voidaan sanoa, että mallilla on todella muisti, mutta se toimii eri, enemmän formalisoituneen logiikan mukaan, joka on erilainen kuin ihmisen muisti.

Miksi keskustelu tekoälyn kanssa toisinaan tuntuu terapeuttiselta ja toisinaan kylmältä ja robottimaiselta?

Nykyiset kielimallit ovat erittäin suuria: ne sisältävät valtavan määrän tietoa, tietämystä ja kontekstia. Kaikki tämä tieto on järjestetty niin kutsutuksiin “klustereihin”, teema- ja semanttisiin alueisiin. Malli on koulutettu moninaisista lähteistä, aina kaunokirjallisuudesta ja tieteellisistä artikkeleista YouTube-kommentteihin.

Kun vuorovaikutat tekoälyn kanssa, kysymyksesi (ohjelma) ohjaa mallin tiettyyn klusteriin.

Esimerkiksi jos kirjoitat: “Olet New Yorkissa toimiva kiinteistölakimies 20 vuoden kokemuksella, auta minua ostamaan asunnon”, malli aktivoi useita klustereita samanaikaisesti: lakimies → New York → kiinteistö. Tuloksena saat koherentin, relevantin ja realistisen vastauksen, ikään kuin olisit todella konsultoimassa kokenutta ammattilaista.

Jos kysymys koskee enemmän henkilökohtaisia tai filosofisia aiheita, kuten itsekehitystä tai tunteita, malli “siirtyy” muihin klustereihin, kuten psykologiaan, filosofiaan tai sisäiseen työhön. Tässä tapauksessa sen vastaukset voivat vaikuttaa yllättävän inhimillisiltä ja jopa terapeuttisilta.

Kuitenkin liian yleisen tai epämääräisen sanamuodon kanssa malli “häviää” klusterirakenteessaan ja antaa oletusarvon mukaisen vastauksen, joka on muodollinen, etäinen ja vailla emotionaalisia sävyjä.

Vastauksen tyyli ja syvyys riippuvat siitä, mihin klusteriin ohjelma ohjaa mallin.

Mallien koulutuksen filosofia ja RLHF

Te koälyllä on erilaisia lähestymistapoja oppimiseen. Se ei ole niinkään filosofia kuin strategia.

Perinteinen vaihtoehto on valvottu oppiminen, jossa mallille annetaan kysymys ja oikea vastaus. Se oppii havainnoimalla, mitä pidetään oikein, ja toistamalla samankaltaisia ratkaisuja tulevaisuudessa.

Toinen lähestymistapa on RLHF (Reinforcement Learning from Human Feedback). Tämä on eri tyyli: malli yrittää jotain, saa “palkinnon” onnistuneista toimista ja mukauttaa käyttäytymistään. Vähitellen se kehittää tehokkaan strategian.

RLHF voidaan verrata raaka-aineen jalostamiseen valmiiksi tuotteeksi. Tehokkaan mallin luomiseen vaaditaan valtava määrä työtä ihmisten palautteen kanssa.

Kuvitellaan, että näytän sinulle esineen ilman suoraa nimeämistä. Epäröit: “Onko se sikariaski? Korttikotelo?” Vastaan vain vihjeillä kuten: “Lähempänä”, “Kauempana”, “60% kyllä.” Satojen tämänkaltaisten iterointien jälkeen arvaat: “Ah, se on lompakko.”

LLMit koulutetaan tämän kaltaisella tavalla. Ihmiset, annotoijat ja ammattilaiset yleensä arvioivat: tämä vastaus on hyvä, tämä on huono, ja antavat pisteitä. Yritykset kuten Keymakr, jotka erikoistuvat laadukkaaseen data-annotaatioon ja validointiin, ovat avainasemassa tässä prosessissa. Palautetta tulee myös tavallisilta käyttäjiltä: tykkäykset, valitukset ja reaktiot. Malli tulkitsee nämä signaalit ja muodostaa käyttäytymismalleja.

Miten mallien koulutus näyttää käytännössä

Eloisa esimerkki on OpenAI:n kokeilu agenttien kouluttamisesta vahvistusoppimisella “Hide and Seek” -pelissä.

Kaksi joukkuetta osallistui siihen: “etsijät” (punainen) ja “piilot” (sininen). Säännöt olivat yksinkertaiset: jos etsijä saa kiinni piilot, se saa pisteitä; jos ei, se menettää pisteitä. Aluksi agenteilla oli vain perusfyysiset kyvyt, juokseminen ja hyppääminen, ilman mitään ennalta määriteltyjä strategioita.

Alussa etsijät toimivat kaoottisesti, ja piilottajien kiinnisaaminen tapahtui sattumalta. Mutta miljoonien iterointien jälkeen heidän käyttäytymisensä kehittyi. Piilottajat alkoivat käyttää ympäröivien esineiden estämiseen ovia ja rakentamaan esteitä. Nämä taidot kehittyivät ilman suoraa ohjelmointia, pelkästään toistuvien yritysten ja onnistumisen palkitsemisen kautta.

Vastauksena etsijät alkoivat käyttää hyppäämistä, kykyä, joka oli alusta alkaen käytettävissä, mutta aiemmin jäänyt huomiotta. Useiden epäonnistumisten jälkeen hyppäämisen satunnainen käyttö paljasti sen taktisen arvon. Sitten piilottajat monipuolistivat puolustustaan entisestään, poistamalla esineitä etsijöiden näkökulmasta ja rakentamalla luotettavampia suojia.

Kokeilu osoitti, että miljardien kokeilujen, virheiden, palkitsemisten ja rangaistusten kautta voidaan muodostua monimutkainen yhteistyöllinen käyttäytyminen ilman kehittäjien väliintuloa. Lisäksi agentit alkoivat toimia koordinoitusti, vaikka viestintämekanismit eivät olleet ohjelmoitu, yksinkertaisesti siksi, että tiimityö osoittautui tehokkaammaksi.

Samoin suuret kielimallit. On mahdotonta koodata kaikki skenaariot: maailmassa on liian monta tilannetta ja liian paljon muuttujia. Siksi emme opeta mallille kiinteitä sääntöjä; opetamme sen oppimaan.

Tämä on RLHF:n arvo. Ilman sitä LLM ja agentit ovat vain tekstikirjasto. Sen avulla ne kehittyvät keskustelukumppaneiksi, jotka voivat sopeutua, korjata itseään ja periaatteessa kehittyä.

Mitä seuraavaksi?

Monet ihmiset pohtivat, voisivatko LLMien ja agenttien kehitys johtaa ei-toivottuihin tai jopa vaarallisiin seurauksiin.

On tärkeää ymmärtää, että mitä näemme tänään, ei ole edes MVP, vaan ainoastaan prototyyppi.

Todellinen vallankumous ei ole avuksi kauniin kirjeen kirjoittamisessa tai sen kääntämisessä ranskaaksi. Nuo ovat pieniä asioita. Pääsuunta on mikrotehtävien ja rutiinien automaatio, jättäen ihmisille vain todella luovia, älyllisiä tehtäviä tai aikaa lepäämiseen.

Todelliset innovaatiot keskittyvät agenteihin, järjestelmiin, jotka voivat itsenäisesti ajatella, toimia ja tehdä päätöksiä ihmisen sijasta. Täsmälleen tähän keskittyvät yritykset kuten OpenAI, Google, Meta ja muut tänään.

Suuret kielimallit ovat vain perusta. Todellinen tulevaisuus piilee agenteissa, jotka on koulutettu elämään dynaamisessa maailmassa, saamaan palautetta ja sopeutumaan muutoksiin.

Michael Abramov on Introspectorin perustaja ja toimitusjohtaja, joka tuo yli 15 vuoden ohjelmistokehitys- ja tietokoneen näköAI-järjestelmien kokemuksen yritysasteisten merkintätyökalujen kehittämiseen.

Michael aloitti uransa ohjelmistosuunnittelijana ja tutkimus- ja kehitysjohtajana, jossa hän rakensi skaalautuvia tietojärjestelmiä ja johti monitoimisia insinööritiimejä. Vuoteen 2025 asti hän on toiminut Keymakrin toimitusjohtajana, joka on data-merkintäpalveluyritys, jossa hän on kehittänyt ihmisen silmän mukaisia työnteon prosesseja, edistyneitä laadunvalvontajärjestelmiä ja mukautettuja työkaluja suurten tietokoneen näön ja autonomisen datan tarpeiden tukemiseksi.

Hänellä on B.Sc. tietojenkäsittelytieteestä ja taustatutkinto insinööritieteestä ja luovista taiteista, mikä tuo monitieteisen näkökulman vaikeiden ongelmien ratkaisemiseen. Michael asuu teknologisen innovaation, strategisen tuotejohtamisen ja todellisen vaikuttavuuden risteyksessä, jossa hän ajaa eteenpäin autonomisen järjestelmien ja älykkään automaation seuraavaa etappia.