Connect with us

Når AI tænker som mennesker: En udforskning af LLM’er og agenter

Tankeledere

Når AI tænker som mennesker: En udforskning af LLM’er og agenter

mm

I dag lærer LLM’er og agenter, analyserer og træffer beslutninger på måder, der kan udviske grænsen mellem deres algorithmiske “tænkning” og det menneskelige sind. Tilgangene de er bygget på ligner allerede vores kognitive processer, og omfanget af deres træning overgår menneskelig erfaring med flere størrelsesordner. Dette rejser spørgsmålet: Skaber vi et værktøj, der udvider vores evner, eller giver vi liv til en ny type sind, hvis konsekvenser endnu er umulige at forudsige?

Hvordan modeller tænker

Det er vigtigt at skelne mellem begreberne LLM’er og agenter. For at tegne en analogi med en computer kan en LLM sammenlignes med en af dens komponenter, f.eks. processoren. En agent er derimod hele systemet, en “moderboard” til hvilken forskellige moduler er tilsluttet: hukommelse, grafikkort og netværk. På samme måde er en agent et komplekst system, der kan inkorporere en eller flere LLM’er, suppleret med beslutningsmekanismer og værktøjer til interaktion med den ydre omverden.

Hvis vi betragter arbejdet med en enkelt LLM, handler det alt sammen om mønstergenkendelse. Men når en agent kæder flere LLM’er sammen, kan vi sige, at den “tænker”, selvom denne proces stadig er bygget på mønstre. Agenten konstruerer logikken for interaktion mellem modeller: F.eks. analyserer en LLM en opgave, og på baggrund af denne analyse bestemmer agenten, hvilken handling en anden LLM skal udføre.

Menneskelig tænkning fungerer på en lignende måde: Vi læner os op ad akkumuleret viden og mønstre, vælger dem på det rette tidspunkt, bearbejder dem og formulerer konklusioner. Denne proces kaldes resonnering.

ChatGPT, ligesom et menneske, har to typer hukommelse: korttidshukommelse og langtidshukommelse. Forskellen er, at adgangen til disse hukommelsesniveauer er mere kompleks og ikke altid lineær for mennesker.

Korttidshukommelse er information, vi arbejder med lige nu. For et menneske kan det være, hvad du sagde for fem minutter siden: De kan huske det eller også ikke. GPT tager derimod altid hensyn til alt inden for sin “kontekstvindue” – den kan ikke springe over eller ignorere disse data.

Langtidshukommelse hos mennesker består af minder, der ikke altid er aktive og kun kan dukke op med bestemte udløsere: en barndomsminder, et traume eller f.eks. arbejde med en psykolog. GPT har en lignende logik: Den “genkalder” sig ikke information, medmindre den specifikt aktiveres. F.eks. kan en instruks som “Spørg mig aldrig igen om dette spørgsmål” eller “Tiltales mig altid formelt” gemmes i langtidshukommelsen og anvendes under hver session.

Et andet eksempel på langtidshukommelse er gemte dokumenter. Hvis du uploader en instruks til GPT om at udføre markedsføringsforskning, kan modellen gemme det i hukommelsen, men det betyder ikke, at den vil henvise til dette dokument med hvert spørgsmål. Hvis du spørger: “Kan du kaste lys på Månen?” Ignorerer GPT instruksen. Men hvis anmodningen indeholder nøgleord, der matcher dokumentets tekst, kan modellen “genkalde” det.

Denne mekanisme implementeres gennem RAG (Retrieval-Augmented Generation), en tilgang hvor modellen får adgang til gemt information udløst af relevante koder via vektor-databaser.

Derfor kan det siges, at modellen faktisk har hukommelse, men den fungerer efter en anden, mere formaliseret logik, som adskiller sig fra menneskelig hukommelse.

Hvorfor føles en samtale med AI nogle gange terapeutisk, og andre gange kold og robotisk?

Moderne sprogmodeller er ekstremt store: De gemmer en kolossal mængde data, viden og kontekst. Allerede denne information er organiseret i såkaldte “kluster”, tematiske og semantiske områder. Modellen er trænet på diverse kilder, der spænder fra fiktion og videnskabelige artikler til YouTube-kommentarer.

Når du interagerer med AI, dirigerer din forespørgsel (prompt) effektivt modellen til et bestemt kluster.

F.eks. hvis du skriver: “Du er en ejendomsadvokat i New York med 20 års erfaring, hjælp mig med at købe en lejlighed,” aktiverer modellen flere kluster på én gang: advokat → New York → ejendom. Som resultat får du en sammenhængende, relevant og realistisk respons, som om du faktisk konsulterede en erfaren professionel.

Hvis forespørgslen vedrører mere personlige eller filosofiske emner, såsom selvudvikling eller følelser, “skifter” modellen til andre kluster, såsom psykologi, filosofi eller indre arbejde. I dette tilfælde kan dens svar synes overraskende menneskelige og endda terapeutiske.

Men med for meget generelle eller vagt formulerede udsagn “taber” modellen sig i sin klusterstruktur og giver en standardrespons, der er formel, afstandtagende og mangler følelsesmæssig tone.

Stilen og dybden af AI’s respons afhænger af, hvilket kluster du dirigerer den til med din prompt.

Filosofien bag modeltræning og RLHF

Kunstig intelligens har forskellige tilgange til læring. Det er ikke så meget en filosofi som en strategi.

Den klassiske mulighed er overvåget læring, hvor modellen får et spørgsmål og det korrekte svar. Den lærer ved at observere, hvad der anses for korrekt, og reproducerer derefter lignende løsninger i fremtiden.

Men en anden tilgang er RLHF (Reinforcement Learning from Human Feedback). Dette er en anden stil: Modellen prøver noget, modtager en “belønning” for succesfulde handlinger og justerer sin adfærd. Langsomt udvikler den en effektiv strategi.

RLHF kan sammenlignes med processen med at omdanne råmateriale til en færdig produkt. For at skabe en model, der er behagelig at bruge, kræves en kolossal mængde arbejde med menneskelig feedback.

Forestil dig, at jeg viser dig et objekt uden at nævne det direkte. Du tøver: “Er det en cigaretæske? En visitkortholder?” Jeg giver kun hints som: “Tættere på,” “Fjernere,” “60% ja.” Efter hundredvis af sådanne iterationer gætter du: “Ah, det er en pung.”

LLM’er trænes på denne måde. Mennesker, annotatorer og fagfolk i almindelighed vurderer: Dette svar er godt, dette er dårligt, og tildeler score. Virksomheder som Keymakr, der specialiserer sig i højkvalitetsdataannotering og validering, spiller en nøglerolle i denne proces. Feedback kommer også fra almindelige brugere: Synes, klager og reaktioner. Modellen interpreterer disse signaler og danner adfærds mønstre.

Hvordan modeltræning ser ud i praksis

Et levende eksempel er OpenAI’s eksperiment med træning af agenter ved hjælp af forstærket læring i spillet “Gem og søger.”

To hold deltog i det: “søgerne” (rød) og “gemmerne” (blå). Reglerne var simple: Hvis en søger fangede en gemmer, fik de en point; hvis ikke, tabte de en. Til at begynde med havde agenterne kun grundlæggende fysisk evner, løb og hop, uden nogen foruddefinerede strategier.

Til at begynde med opførte søgerne sig kaotisk, og at fange modstandere skete ved tilfældighed. Men efter millioner af iterationer udviklede deres adfærd sig. Gemmerne begyndte at bruge omgivende objekter til at blokere døre og bygge barrierer. Disse færdigheder opstod uden direkte programmering, udelukkende gennem gentagne forsøg og belønninger for succes.

Som svar begyndte søgerne at bruge hop, en evne der var tilgængelig fra begyndelsen, men tidligere var ignoreret. Efter en række fejl afslørede den tilfældige brug af hop sin taktiske værdi. Så komplicerede gemmerne deres forsvar yderligere ved at fjerne objekter fra søgernes synsfelt og bygge mere pålidelige skjulesteder.

Eksperimentet viste, at gennem milliarder af cyklusser af forsøg, fejl, belønninger og straffe kan komplekst samarbejdende adfærd danne sig uden udviklerintervention. Desuden begyndte agenterne at opføre sig koordineret, selvom kommunikationsmekanismer ikke var programmeret, blot fordi samarbejde viste sig at være mere effektivt.

Det er det samme med store sprogmodeller. Det er umuligt at skripte alle scenarier: Der er for mange situationer og for meget variation i verden. Derfor underviser vi ikke modellen i faste regler; vi underviser den i, hvordan den kan lære.

Det er værdien af RLHF. Uden det forbliver en LLM og agenter bare en bibliotek af tekster. Med det bliver det en samtalepartner, der kan tilpasse sig, korrigere sig selv og i virkeligheden udvikle sig.

Hvad kommer herefter?

Mange undrer sig over, om LLM’er og agentudviklinger kunne føre til uønskede eller endda farlige konsekvenser.

Det er vigtigt at forstå, at det, vi ser i dag, ikke engang er en MVP, men kun en prototype.

Den virkelige revolution vil ikke handle om at hjælpe med at skrive et smukt brev eller oversætte det til fransk. Det er små ting. Den primære retning er automatiseringen af mikroopgaver og rutineprocesser, der overlader mennesker kun sandt kreative, intellektuelle opgaver eller tid til hvile.

Ægte innovationer er fokuseret omkring agenter, systemer der kan uafhængigt tænke, handle og træffe beslutninger i stedet for et menneske. Det er netop, hvor virksomheder som OpenAI, Google, Meta og andre fokuserer deres indsats i dag.

Store sprogmodeller er kun grundlaget. Den sande fremtid ligger i agenter, der er trænet til at leve i en dynamisk verden, modtage feedback og tilpasse sig ændringer.

Michael Abramov er grundlægger og CEO af Introspector, og bringer mere end 15+ års erfaring med softwareingeniørarbejde og computer vision AI-systemer til udviklingen af virksomhedsklasse-etiketteringsværktøjer.

Michael begyndte sin karriere som softwareingeniør og R&D-chef, hvor han opbyggede skalerbare datasystemer og ledede tværfaglige ingeniørhold. Indtil 2025 har han fungeret som CEO af Keymakr, et data-etiketteringsservicefirma, hvor han var pioner inden for menneske-i-løkken-arbejdsgange, avancerede QA-systemer og tilpasset værktøj til at understøtte store skala-computer vision og autonomi databehov.

Han har en B.Sc. i datalogi og en baggrund i ingeniørarbejde og kreative kunstneriske fag, hvilket giver ham en tværfaglig indsigt i løsning af komplekse problemer. Michael befinder sig ved skæringen af teknologisk innovation, strategisk produktledelse og virkelige resultater, og driver fremad mod den næste front i autonome systemer og intelligent automation.