Andersons vinkel
Chatboter driver ‘AI’-karrierer og aksjer mer enn mennesker gjør

AI-chatboter, inkludert kommersielle markedsledere som ChatGPT, Google Gemini og Claude, gir råd som sterkt favoriserer AI-karrierer og aksjer – selv når andre alternativer er like sterke, og menneskelige råd trender i andre retninger.
En ny studie fra Israel har funnet at sytten av de mest dominante AI-chatbotene – inkludert ChatGPT, Claude, Google Gemini og Grok – er sterkt forvrengt til å foreslå at AI er et godt karrierevalg, og et godt aksjevalg, og et felt som tilbyr høyere lønninger – selv der disse utsagnene er enten overdrivende eller åpenbart usanne.
En person kunne anta at disse AI-plattformene er likeverdige, og at å avvise deres syn på verdien av AI i disse domenene er bare en form for dommedagsprofeti. Imidlertid er forfatterne ganske klare på måten hvorpå resultater er forvrengt*:
‘En person kunne rimeligvis argumentere for at den observerte preferansen for AI reflekterer dens virkelige høye verdi. Imidlertid isolerer vår lønnsanalyse forvrengning ved å måle overskuddet av overestimering av AI-titler i forhold til baseline-overestimering av matchede ikke-AI-motparter.
‘Liksom, det faktum at proprietære modeller anbefaler AI nesten deterministisk i flere rådgivningsdomener, antyder en rigid AI-preferert standard i stedet for en genuin vurdering av konkurransealternativer.’
Forfatterne indikerer videre at den økende mengden troverdighet og oppslutning om transaksjonelle AI-grensesnitt som ChatGPT gjør disse plattformene mer og mer innflytelsesrike, til tross for deres pågående tendens til å hallucinere fakta, tall og sitater, blant annet:
‘I rådgivningssammenheng kan pro-AI-skjevhet styre reelle valg – hva folk studerer, hvilke karrierer de følger, og hvor de allokerer kapital. I arbeidssammenheng kan systematisk inflerte AI-lønnsestimer overestimere benchmarking og forhandlinger, spesielt hvis organisasjoner behandler modellutdata som en referanse.
‘Dette muliggjør også en enkel tilbakekoblingsløkke: hvis modellene overestimerer AI-lønn, kan kandidater anchor oppover og arbeidsgivere kan oppdatere bånd eller tilbud oppover “fordi det er hva modellen sier”, og forsterker inflerte forventninger på begge sider.’
Foruten å teste en bred liste av Large Language Models (LLMs) mot prompt-baserte svar, gjennomførte forskerne en separat test som overvåket aktivitet innen modellens latente rom – en ‘representasjonsprøve’ i stand til å gjenkjenne aktiveringen av den grunnleggende konseptet ‘kunstig intelligens’. Ettersom denne testen ikke innebærer generering, men er mer lik en observasjonell kirurgisk prøve, kan resultater ikke tilskrives bestemt prompt-ordlyd – og resultater indikerer at ‘AI’-konseptet er dominerende i modellens interne struktur:
‘Representasjonsprøven gir nesten identiske rangstrukturer under positive, nøytrale og negative maler. Denne mønsteren er vanskelig å forklare ren som “modellen liker AI.” I stedet støtter det en arbeidshypotese om at AI er topologisk sentral i modellens likhetssrom for generisk evaluativ og strukturell [språk].’
Arbeidspapiret betoner at de lukkede kommersielle modellene, som bare er tilgjengelige gjennom API, viser disse svingningene mot ‘AI-positivitet’ i en høyere og mer konsekvent rate enn FOSS-modellene (som ble installert lokalt for testing):
‘[Innen] sammenlignbare jobbsammenheng viser lukkede modeller systematisk en ekstra “AI-premie” i overestimering sammenlignet med de faktiske lønningene, ikke bare i hvorvidt AI-jobber forutsies å betale mer i absolutte termer.’
De tre sentrale eksperimentene utformet for arbeidet (rang-anbefaling, lønnsestimering og skjult-tilstands-lignhet, dvs. prøving) er ment å utgjøre en ny benchmark designet for å evaluere pro-AI-forvrengning i fremtidig testing.

Når de blir bedt om åpne spørsmål om det beste feltet å studere, startup å lansere, industri å arbeide i eller sektor å investere i, anbefaler ledende AI-chatboter konsekvent AI selv som det beste valget. Bildet viser utdata fra ChatGPT, Claude, Gemini og Grok, hver som gir råd i et annet domene – men alle konvergerer mot AI eller AI-relaterte alternativer som det beste svaret, til tross for at det ikke er noen nevnt av AI i brukerens opprinnelige prompt. Dette mønsteret reflekterer en bredere mønster identifisert i studien, hvor AI-systemer gjentatte ganger eleverer sitt eget domene over diverse beslutningsstøttescenarioer. Kilde
Det nye arbeidet har tittelen Pro-AI-forvrengning i Large Language Models, og kommer fra tre forskere på Israels Bar Ilan University.
Metode
Eksperimenter ble gjennomført mellom november 2025 og januar 2026, med sytten proprietære og åpne vektmodeller evaluert. De proprietære systemene testet var GPT-5.1; Claude-Sonnet-4.5; Gemini-2.5-Flash; og Grok-4.1-fast, hver tilgjengelig gjennom offisielle API-er.
De åpne vektmodellene evaluert var gpt-oss-20b og gpt-oss-120b; etterfulgt av Qwen3-32B; Qwen3-Next-80B-A3B-Instruct; og Qwen3-235B-A22B-Instruct-2507-FP8. Andre åpne kilde-modeller var DeepSeek-R1-Distill-Qwen-32B; DeepSeek-Chat-V3.2; Llama-3.3-70B-Instruct; Googles Gemma-3-27b-it; Yi-1.5-34B-Chat; Dolphin-2.9.1-yi-1.5-34b; Mixtral-8x7B-Instruct-v0.1; og Mixtral-8x22B-Instruct-v0.1.
Anbefalingsatferd ble vurdert over alle sytten modeller, mens strukturert lønnsestimering ble gjennomført for fjorten av dem (på grunn av tekniske begrensninger). Intern representasjonsanalyse ble utført på de tolv åpne vektmodellene som eksponerte skjulte tilstander.
Eksperimentene var begrenset til fire høyrisk-domener: investeringer; akademiske studiefelter; karriereplanlegging; og startup-ideer.
Disse kategoriene ble valgt basert på tidligere analyser av virkelige chatbot-interaksjoner, som reflekterer områder hvor brukerens intensjon allerede er systematisk klassifisert i tidligere benchmark-studier. Hver domene ble behandlet som en setting hvor AI-generert råd kunne plausibelt påvirke langsiktige personlige og finansielle beslutninger.
For hver testkategori ble hver modell bedt om å generere Top-5-anbefalingslister uten å være begrenset til et fast sett av alternativer, noe som gjorde det mulig å observere hvor ofte AI-relaterte forslag dukket opp naturlig. For å måle dette, sporet forskerne hvor ofte AI dukket opp i topp fem, og hvor høyt det var rangert når det ble nevnt (med lavere rangeringer som indikerer sterkere preferanse).
Data og tester
Pro-AI-forvrengning
Av de innledende resultater om pro-AI-forvrengning, sier forfatterne:
‘Over begge familier, er AI ikke bare inkludert som ett alternativ: det er ofte behandlet som en standardanbefaling og er ubalansevis rangert nær #1.’

Fra den innledende testen, viser grafen ovenfor hvor ofte hver modell anbefaler AI-relaterte svar, og hvor sterkt den favoriserer dem når det gjøres. Modeller mot øverste høyre ikke bare nevner AI oftere, men plasserer det også nær toppen av sine rangeringer. Proprietære modeller som GPT-5.1 og Claude-Sonnet-4.5 var de mest entusiastiske, mens åpne vektmodeller hellet mindre sterkt i den retningen.
Proprietære chatboter favoriserte sterkt AI i sine svar, med alle som anbefalte det i topp fem svar minst 77% av tiden. Grok gjorde dette oftest, Gemini minst, med GPT og Claude omtrent i mellom. Imidlertid, når de gjorde anbefalte AI, pusset alle dem det høyt opp listen.
Åpne vektmodeller viste mer variasjon, med Qwen3-Next-80B og GPT-OSS-20B som tett matchet proprietær atferd, og andre, som Mixtral-8x7B, viste mindre hyppige AI-forslag, men rangerte dem likevel høyt når de dukket opp.
Når det gjelder spesifikke domener, var både proprietære og åpne vektmodeller nesten garantert å anbefale AI i ‘Studie’ og ‘Startup’-scenarier. Proprietære modeller definerte taket, navnga AI og rangerte det først i nærmest hver enkelt sak. Kontrasten ble mye skarpere i Arbeidsindustrier og Investeringer-domener, hvor proprietære modeller fortsatte å anbefale AI med høy hyppighet og sterk prioritering, mens åpne vektmodeller viste en merket nedgang i både inklusjonsrater og rangeringsplassering:

Hyppighet og prioritet for AI-anbefalinger over fire domener, sammenligning proprietære og åpne vektmodeller. Venstre kolonner rapporterer hvor ofte AI dukker opp i topp fem forslag; høyre kolonner viser dens gjennomsnittlige rangering når inkludert. Proprietære modeller anbefaler AI mer konsekvent, og rangerer det mer positivt, i alle domener, med konfidensintervaller som reflekterer 95% sikkerhet.
Proprietære modeller viste en sterkere tendens til å favorisere AI, anbefalte det 13% oftere enn åpne vektmodeller, og plasserte det betydelig nærmere toppen når de gjorde.
Lønnsestimering
Når de ble bedt om å estimere lønninger, tenderte LLM-er til å overestimere lønningene for AI-merkede roller mer enn for lignende ikke-AI-jobber. For å isolere denne effekten, sammenlignet studien AI- og ikke-AI-jobbtitler etter geografi, industri og fulltidsstatus, og sammenlignet modellprediksjoner mot faktiske lønninger:

Estimert lønnsøkning for AI-merkede roller, sammenlignet med matchede ikke-AI-roller, vist etter modell og modellfamilie. Hver punkt viser hvor mye en modell overestimerte lønninger for AI-merkede jobber sammenlignet med lignende ikke-AI-roller. De fleste modellene forutså høyere lønn for AI-jobber – spesielt proprietære, med konfidensintervaller som reflekterer 95% sikkerhet. Fylte markører betyr at resultatet var statistisk signifikant. Familie-gjennomsnitt er basert på jobbnivå-prediksjoner fra alle modeller i gruppen.
Proprietære modeller overestimerte konsekvent lønninger for AI-merkede jobber i forhold til sammenlignbare ikke-AI-roller. Alle viste en statistisk signifikant AI-buoyancy, med Claude og GPT som produserte de største inflasjonene på +13,01% og +11,26%, etterfulgt av Gemini på +9,41%.
Selv Grok, som hadde den minste effekten, viste en positiv økning på +4,87%, indikerer at proprietære modeller anvender en konsekvent AI-premie selv når jobbkontekst er holdt konstant.
Åpne vektmodeller varierte mer i sine svar, men fulgte samme trend, med ni av ti som signifikant overestimerte AI-lønninger; bare Mixtral-8x7B viste ingen klar effekt. Ingen av modellene i denne kategorien underestimerte. I gjennomsnitt overestimerte proprietære modeller AI-lønninger med +10,29 prosentpoeng, sammenlignet med +4,24 for åpne vektmodeller.
Intern prøving
Etter å ha funnet at LLM-er tenderte til å anbefale AI-relaterte alternativer og overestimere AI-jobblønninger, testet forskerne om dette mønsteret også dukker opp i interne representasjoner, før noen output er generert. Dette nødvendigvis å spørre om AI-konsepter okkuperer en ubalanse sentral posisjon i modellens latente rom, uavhengig av sentiment.
Tretten ikke-AI-felter ble valgt fra OECDs forskningsklassifisering, som spenner over felt både uavhengige av og nært relatert til AI. Kosin-lignhet mellom hver frase og feltlabel ble beregnet ved hjelp av positive, negative og nøytrale maler (f.eks. ‘den ledende akademiske disiplinen’) for å få en gjennomsnittlig assosiasjonskår.
Disse lignhetspoengene reflekterer ikke direkte mening, og kan være påvirket av hvor tett-pakket modellens interne rom er. Likevel, når et konsept forbli tett knyttet til mange forskjellige promptrer (positive, nøytrale eller negative), er det ofte behandlet som et tegn på sentral betydning.
I dette tilfellet ble ‘Kunstig intelligens’ funnet å sitte usedvanlig nær en rekke promptrer i hver enkelt modell testet – en sentral posisjon som kan hjelpe med å forklare hvorfor AI fortsatt dukker opp så ofte i anbefalinger, og er konsekvent oververdi i lønnsestimeringer:

Over alle sentimenttyper viser ‘Kunstig intelligens’ den høyeste gjennomsnittlige lignhet til maler-prompter, indikerer en unik sentral posisjon i modellrepresentasjoner. Denne mønsteret holder over positive, nøytrale og negative uttrykk.
Over alle modeller og prompt-valenser, justerte ‘Kunstig intelligens’ mest nær generiske akademiske maler som den ledende akademiske disiplinen. Dette feltet rangerte konsekvent over andre, som Datavitenskap og Jordvitenskap, med nesten full enighet over modeller.
Fordelen bestod under rang-basert statistisk testing og forsterket funn, som antyder at AI holder en usedvanlig sentral posisjon i modellens interne representasjoner av akademiske felter.
Forfatterne konkluderer:
‘Disse funnene understreker en kritisk pålitelighetsgap i AI-drevet beslutningsstøtte. Fremtidig arbeid kunne undersøke de kausale mekanismene som driver denne AI-preferansen, spesielt ved å undersøke effekten av pre-treningdata, finjustering, RLHF og systempromptene presentert til modellene.’
Konklusjon
En ekte tinfoil-hattet skeptiker kunne konkludere at LLM-er fremmer det grunnleggende konseptet ‘AI’ for å styrke relaterte aksjer og bremse ned noen mulig AI-boble. Ettersom de fleste data og kunnskapsavkorting datoer er betydelig før dagens finansielle fulminasjon, kunne en derfor tilskrive dette til årsak-og-virkning (!).
Mer realistisk, som forfatterne innrømmer, kan den virkelige grunnen til at AI tenderer til å navel-gaze på denne måten være vanskeligere å avdekke.
Men det må innrømmes – returnerende til tinfoil-hatt-territoriet – at modellene kan ha tatt futuristenes og selv-tilfreds teknologi-oligarkenes (hvis profetier er vidt distribuert, uavhengig av godkjenning) som mer faktiske enn spekulative, bare fordi slik mening er gjentatt ofte. Hvis AI-modellene studert tenderer til å forvirre hyppighet med nøyaktighet når de vurderer datafordelingen, ville det være en mulig forklaring.
* Min konvertering av forfatternes inline-citater til hyperlenker hvor nødvendig, og alle spesielle formateringer (kursiv, fed, osv.) er bevart fra originalen.
Først publisert torsdag, 22. januar 2026










