Connect with us

Tankeledere

Når AI Tenker Som Mennesker: En Utforsking Av LLMs og Agenter Sinn

mm

I dag lærer LLMs og agenter, analyserer og tar beslutninger på måter som kan utviske grensen mellom deres algoritmiske “tenkning” og det menneskelige sinn. Tilnærmingene de er bygget på etterligner allerede våre kognitive prosesser, og skalaen på deres trening overstiger menneskelig erfaring med flere størrelsesordener. Dette reiser spørsmålet: skaper vi et verktøy som utvider våre evner, eller gir vi opphav til en ny type sinn hvis konsekvenser fortsatt er umulig å forutsi?

Hvordan modeller tenker

Det er viktig å skille mellom begrepene LLMs og agenter. For å tegne en analogi med en datamaskin, kan en LLM sammenlignes med en av dens komponenter, for eksempel prosessoren. En agent, derimot, er hele systemet, en “hovedkort” til hvilken forskjellige moduler er koblet: minne, grafikkort og nettverk. Liksom en agent er et komplekst system som kan inkorporere en eller flere LLMs, supplert med beslutningstakingsmekanismer og verktøy for å samhandle med den ytre miljøet.

Hvis vi betrakter arbeidet til en enkelt LLM, handler det alles om mønsteravkjenning. Men når en agent lenker flere LLMs, kan vi si at den “tenker”, selv om denne prosessen fortsatt er bygget på mønster. Agenten konstruerer logikken for samhandling mellom modellene: for eksempel analyserer en LLM oppgaven, og basert på denne analysen, bestemmer agenten hva handling en annen LLM skal utføre.

Menneskelig tenkning fungerer på en lignende måte: vi baserer oss på akkumulert kunnskap og mønster, velger dem på rett tid, prosesserer dem og formulerer konklusjoner. Denne prosessen kalles resonnering.

ChatGPT, som et menneske, har to typer minne: korttidsminne og langtidsminne. Forskjellen er at tilgangen til disse minnenivåene er mer komplisert og ikke alltid lineær hos mennesker.

Korttidsminne er informasjon vi jobber med akkurat nå. For et menneske kan det være hva du sa for fem minutter siden: de kan huske det eller ikke. GPT tar imidlertid alltid hensyn til alt innenfor sin “kontekstvindu” – den kan ikke hoppe over eller ignorere denne dataen.

Langtidsminne hos mennesker består av minner som ikke alltid er aktive og kan kun komme til overflaten med bestemte utløsere: en barndomsminne, en traume eller, for eksempel, arbeid med en psykolog. GPT har en lignende logikk: den “husker” ikke informasjon på egen hånd med mindre den er spesifikt aktivert. For eksempel kan en instruksjon som “Spør meg aldri igjen på dette spørsmålet” eller “Tiltales alltid formelt” lagres i langtidsminne og brukes under hver sesjon.

Et annet eksempel på langtidsminne er lagrede dokumenter. Anta at du lastet opp en instruks til GPT for å utføre markedsføringsforskning. Modellen kan lagre det i minne, men det betyr ikke at den vil henvises til dette dokumentet med hvert spørsmål. Hvis du spør: “Kan du kaste lys på månen?” vil GPT ignorere instruksjonen. Men hvis forespørselen inneholder nøkkelord som matcher dokumentets tekst, kan modellen “huske” det.

Denne mekanismen implementeres gjennom RAG (Retrieval-Augmented Generation), en tilnærming hvor modellen får tilgang til lagret informasjon utløst av relevante signaler via vektor-databaser.

Således kan det sies at modellen virkelig har minne, men det fungerer ifølge en annen, mer formalisert logikk, forskjellig fra menneskelig minne.

Hvorfor føles en samtale med AI noen ganger terapeutisk, og andre ganger kald og robotisk?

Moderne språkmodeller er ekstremt store: de lagrer en kolossal mengde data, kunnskap og kontekst. All denne informasjonen er organisert i såkalte “kluster”, tematiske og semantiske områder. Modellen ble trent på diverse kilder, fra fiksjon og vitenskapelige artikler til YouTube-kommentarer.

Når du samhandler med AI, retter din forespørsel (prompt) effektivt modellen til et bestemt kluster.

For eksempel, hvis du skriver: “Du er en eiendomssakfører i New York med 20 års erfaring, hjelp meg å kjøpe en leilighet,” aktiverer modellen flere kluster samtidig: sakfører → New York → eiendom. Som resultat får du en koherent, relevant og realistisk respons, som om du virkelig konsulterte en erfaren profesjonell.

Hvis forespørselen omhandler mer personlige eller filosofiske emner, som selvutvikling eller følelser, “skifter” modellen til andre kluster, som psykologi, filosofi eller indre arbeid. I dette tilfelle kan dens svar synes overraskende menneskelige og til og med terapeutiske.

Men med for generelle eller vagt formulerede forespørsler, “går” modellen “vill” i sin klusterstruktur og gir en standardrespons, formell, avstandlig og mangler emosjonell tone.

Stilen og dybden på AI-responsen avhenger av hvilket kluster du retter den til med din prompt.

Filosofien bak modelltrening og RLHF

Kunstig intelligens har forskjellige tilnærminger til læring. Det er ikke så mye en filosofi som en strategi.

Den klassiske valgmuligheten er overvåket læring, hvor modellen får et spørsmål og det korrekte svaret. Den lærer ved å observere hva som anses korrekt og deretter reproduserer lignende løsninger i fremtiden.

Men en annen tilnærming er RLHF (Reinforcement Learning from Human Feedback). Dette er en annen stil: modellen prøver noe, mottar en “belønning” for vellykkede handlinger og justerer sitt atferd. Gradvis utvikler den en effektiv strategi.

RLHF kan sammenlignes med prosessen med å omdanne råmateriale til en ferdig produkt. For å lage en modell som er behagelig å bruke, er en kolossal mengde arbeid med menneskelig tilbakemelding nødvendig.

Tenk at jeg viser deg et objekt uten å navngi det direkte. Du tøver: “Er det en sigarett-eske? En kort holder?” Jeg gir bare hint som: “Nærere,” “Lenger,” “60% ja.” Etter hundrevis av slike iterasjoner, gjetter du: “Ah, det er en lommebok.”

LLMs er trent på denne måten. Mennesker, annotatorer og fagfolk generelt, vurderer: dette svaret er bra, dette er dårlig, og tildeler poeng. Selskaper som Keymakr, som spesialiserer seg i høykvalitets data-annotering og validering, spiller en nøkkelrolle i denne prosessen. Tilbakemelding kommer også fra vanlige brukere: liker, klager og reaksjoner. Modellen tolker disse signalene og danner atferdmønster.

Hvordan modelltrening ser ut i praksis

Et levende eksempel er OpenAI-s forsøk med å trene agenter ved hjelp av forsterkingslæring i spillet “Gjem og søk.”

To lag deltok i det: “søkerne” (røde) og “gjemmerne” (blå). Reglene var enkle: hvis en søker fanger en gjemmer, tjener de en poeng; hvis ikke, mister de en. Til å begynne med, hadde agentene bare grunnleggende fysiske evner, løping og hopping, uten noen forhåndsdefinerte strategier.

I begynnelsen handlet søkerne kaotisk, og å fange motstandere skjedde ved tilfeldighet. Men etter millioner av iterasjoner, utviklet deres atferd seg. Gjemmerne begynte å bruke omgivelsesobjekter til å blokkere dører og bygge barrierer. Disse ferdighetene oppstod uten direkte programmering, ren og skjær gjennom gjentakende forsøk og belønninger for suksess.

Som svar begynte søkerne å bruke hopping, en evne som var tilgjengelig fra begynnelsen, men tidligere ble ignorert. Etter en rekke feil, avdekket den tilfeldige bruken av hopping sin taktiske verdi. Deretter kompliserte gjemmerne forsvaret sitt videre, fjernet objekter fra søkerens synsline og bygde mer pålitelige skjulesteder.

Forsøket viste at gjennom milliarder av sykluser av prøving, feil, belønninger og straffer, kompleks samarbeidende atferd kan danne seg uten utviklerintervensjon. Dessuten begynte agentene å handle koordinert, selv om kommunikasjonsmekanismer ikke var programmert, bare fordi teamarbeid viste seg å være mer effektivt.

Det er det samme med store språkmodeller. Det er umulig å skript alle scenarier: det er for mange situasjoner og for mye variasjon i verden. Derfor lærer vi ikke modellen faste regler; vi lærer den hvordan den kan lære.

Dette er verdien av RLHF. Uten det, forblir en LLM og agenter bare en samling av tekst. Med det, blir det en samtalepartner i stand til å tilpasse seg, korrigere seg selv og, i realiteten, utvikle seg.

Hva er neste?

Mange undrer seg på om LLMs og agentutvikling kan føre til uønskede eller til og med farlige konsekvenser.

Det er viktig å forstå at det vi ser i dag, er ikke engang en MVP, men bare en prototype.

Den virkelige revolusjonen vil ikke handle om å hjelpe til å skrive et vakkert brev eller oversette det til fransk. Disse er små ting. Hovedretningen er automatisering av mikrooppgaver og rutineprosesser, og å la mennesker bare utføre virkelig kreative, intellektuelle oppgaver eller ha tid for hvile.

Virkelige innovasjoner er fokusert rundt agenter, systemer som kan uavhengig tenke, handle og fatte beslutninger i stedet for et menneske. Dette er nettopp der selskaper som OpenAI, Google, Meta og andre fokuserer sine innsats i dag.

Store språkmodeller er bare grunnlaget. Den virkelige fremtiden ligger i agenter trent til å leve i en dynamisk verden, motta tilbakemelding og tilpasse seg endringer.

Michael Abramov er grunnlegger og CEO av Introspector, og bringer over 15+ års erfaring med programvareutvikling og datamaskinseende AI-systemer til å bygge bedriftsgraderte merkingverktøy.

Michael begynte sin karriere som programvareutvikler og R&D-sjef, og bygde skalerbare datasystemer og ledet tverrfaglige ingeniørteam. Frem til 2025 har han vært CEO av Keymakr, et dataselskap for merkingstjenester, der han var pioner innenfor menneske-i-løkken-arbeidsflyter, avanserte QA-systemer og tilpassede verktøy for å støtte større skala datamaskinseende og autonomi databehov.

Han har en B.Sc. i datavitenskap og en bakgrunn i ingeniørvitenskap og kreative kunstarter, og bringer en tverrfaglig tilnærming til å løse vanskelige problemer. Michael bor i skjæringspunktet mellom teknologisk innovasjon, strategisk produktledelse og virkelige verdensvirkninger, og driver fremover den neste fronten av autonome systemer og intelligente automatiseringer.