Ajatusjohtajat
Kuinka suuret kielimallit (LLM) voimaavat tulevaisuuden sovellukset

Generatiivinen tekoäly ja erityisesti sen kieliin perustuva muoto – ChatGPT on joka paikassa. Suurten kielimallien (LLM) teknologia tulee olemaan merkittävässä roolissa tulevaisuuden sovellusten kehittämisessä. LLM:t ovat erittäin hyviä kieleen tutustumisessa johtuen laajasta esikoulutuksesta, joka on tehty perusmallien kanssa julkisessa tekstidomeenissa, mukaan lukien koodi. Menetelmät kuten valvottu hienosäätö ja vahvistettu oppiminen ihmisten palautteen (RLHF) kanssa tekevät näistä LLM:istä entistä tehokkaampia vastaamaan tiettyihin kysymyksiin ja keskustelemaan käyttäjien kanssa. Kun siirrymme seuraavaan vaiheeseen AI-sovelluksiin, jotka perustuvat LLM:ihin – seuraavat avainkomponentit tulevat olemaan olennaisia näille seuraaville sovelluksille. Alla oleva kuva näyttää tämän kehityksen, ja kun siirryt ylöspäin, rakennat enemmän älykkyyttä ja autonomiaa sovelluksiisi. Tarkastellaan näitä eri tasoja.

LLM-kutsut:
Nämä ovat suorat kutsut valmiiksi tai chat-malleihin LLM-toimittajan kautta, kuten Azure OpenAI tai Google PaLM tai Amazon Bedrock. Nämä kutsut ovat hyvin perustasoisia ja käyttävät pääasiassa LLM:n sisäistä muistia tuottamaan tulokset.
Esimerkki: Kysymällä perusmallilta, kuten “text-davinci”, “kerro vitsi”. Antaa hyvin vähän kontekstia, ja malli luottaa sisäiseen esikoulutettuun muistiin vastata (korostettu vihreällä alla olevassa kuvassa – käyttäen Azure OpenAI).

Kontekstit:
Seuraava älykkyyden taso on lisäämällä yhä enemmän kontekstia kutsuihin. On olemassa tekniikoita kutsujen insinöörintiin, jotka voidaan soveltaa LLM:ihin, jotta ne voivat antaa räätälöityjä vastauksia. Esimerkiksi, kun luodaan sähköposti käyttäjälle, jonkin verran kontekstia käyttäjästä, aiemmista ostoista ja käyttäytymismalleista voidaan käyttää kutsuna räätälöidä sähköpostia. Käyttäjät, jotka ovat tuttuja ChatGPT:hen, tietävät eri menetelmiä kutsujen antamiseen, kuten antamalla esimerkkejä, joita LLM käyttää vastauksen rakentamiseen. Kontekstit täydentävät LLM:n sisäistä muistia lisäkontekstilla. Esimerkki on alla.

Upotukset:
Upotukset vievät kutsut seuraavaan tasoon etsimällä tietopohjaa kontekstia varten ja hankkimalla kyseisen kontekstin ja liittämällä sen kutsuun. Tässä ensimmäinen askel on tehdä suuri asiakirjamuisti, jossa on epäjärjestäytynyt teksti, haettavaksi indeksoimalla teksti ja populoimalla vektortietokanta. Tässä voidaan käyttää upotusmallia, kuten ‘ada’ OpenAI:sta, joka ottaa tekstinpätkän ja muuttaa sen n-uloitteiseksi vektoriksi. Nämä upotukset kaappaavat tekstin kontekstin, joten samankaltaiset lauseet tulevat olemaan lähellä toisiaan vektortilassa. Kun käyttäjä syöttää kysymyksen, kysymys muunnetaan upotukseksi, ja se vektori verrataan vektoreihin tietokannassa. Näin saadaan 5 tai 10 parasta vastaavaa tekstinpätkää kysymykselle, jotka muodostavat kontekstin. Kysymys ja konteksti välitetään LLM:lle vastata kysymykseen inhimillisellä tavalla.
ketjut:
Tänään ketjut ovat kehittynein ja kypsyin teknologia, jota käytetään laajasti LLM-sovellusten rakentamiseen. Ketjut ovat deterministisiä, jossa LLM-kutsujen sarja on yhdistetty, ja tuloste yhdestä kutsusta virtaa toiseen tai useampaan LLM:ään. Esimerkiksi voimme käyttää LLM-kutsua kysymään SQL-tietokannasta ja hakea luettelon asiakkaan sähköposteista ja lähettää sen toiselle LLM:lle, joka luo räätälöityjä sähköposteja asiakkaille. Nämä LLM-ketjut voidaan integroida olemassa oleviin sovellusvirroksiin tuottamaan arvokkaampia tuloksia. Käyttämällä ketjuja, voimme täydentää LLM-kutsuja ulkoisilla syötteillä, kuten API-kutsuilla ja tietograafien integroimisella, tarjoamaan kontekstin. Lisäksi tänään, useiden LLM-toimittajien ollessa saatavilla, kuten OpenAI, AWS Bedrock, Google PaLM, MosaicML jne., voimme yhdistää LLM-kutsuja ketjuihin. Ketjujen alkeiskomponenteille, joilla on rajoitettu älykkyys, voidaan käyttää alempaa LLM:ää, kuten ‘gpt3.5-turbo’, kun taas edistyneemmille tehtäville voidaan käyttää ‘gpt4’:ää. Ketjut tarjoavat abstraktion tiedoille, sovelluksille ja LLM-kutsuille.
Agentit:
Agentit ovat aiheena monissa verkko-keskusteluissa, erityisesti suhteessa tekoälyyn (AGI). Agentit käyttävät edistynyttä LLM:ää, kuten ‘gpt4’ tai ‘PaLM2’, suunnittelemaan tehtäviä sen sijaan, että ne seuraisivat ennalta määritettyjä ketjuja. Kun on käyttäjän pyynnöt, agentti päättää, mitä tehtäviä kutsua tai mitä ketjuja rakentaa dynaamisesti. Esimerkiksi, kun konfiguroimme agentin käskyllä “ilmoita asiakkaille, kun lainan vuosikorko muuttuu hallituksen sääntelyn päivityksen johdosta”. Agenttirunko tekee LLM-kutsun päättääkseen, mitä askelia tehdä tai mitä ketjuja rakentaa. Tässä se kutsuu sovelluksen, joka etsii sääntelyverkkosivuja ja poimii uusimman vuosikoron, sitten LLM-kutsu etsii tietokannasta ja poimii asiakkaan sähköpostit, jotka ovat vaikuttuneita, ja lopulta sähköposti luodaan ilmoittamaan kaikille.
Lopputajat:
LLM on nopeasti kehittyvä teknologia, ja parempia malleja ja sovelluksia julkaistaan joka viikko. LLM:istä agenteihin on älykkyyden portaat, ja kun siirrymme ylöspäin, rakennamme monimutkaisia autonomisia sovelluksia. Paremmat mallit tarkoittavat tehokkaampia agenteja, ja seuraavat sovellukset tulevat olemaan voimassa näiden agenteiden kanssa. Aika näyttää, kuinka edistyneitä seuraavat sovellukset tulevat olemaan ja mitä malleja ne tulevat käyttämään.












