Kontakt med oss

Andersons vinkel

Chatbots fremmer karrierer og aksjer med «AI» mer enn mennesker gjÞr

mm
AI-generert bilde, av Z-Image Turbo V1 via Krita Diffusion. Ledetekst: «Et arkivbilde av en semi-industriell humanoid robot (ikke en blank hvit robot eller noen annen klisjĂ©) som sitter bak skrivebordet pĂ„ et kontor pĂ„ videregĂ„ende skole. DĂžren er Ă„pen, og en kĂž av elever med blandet kjĂžnn og rase venter pĂ„ Ă„ se roboten, som sitter bak et skrivebord med det store skiltet «KARRIERERÅDGIVER» pĂ„. For Ăžyeblikket diskuterer roboten noe med en ung kvinnelig student som sitter foran skrivebordet hans, mens resten av elevene venter pĂ„ tur. Bak roboten henger en plakat pĂ„ veggen som er en satire over rekrutteringsplakaten fra 19-tallet «Jeg vil ha deg til den amerikanske hĂŠren: nĂŠrmeste rekrutteringsstasjon / James Montgomery Flagg», hvor ordene er endret til «Jeg vil ha deg til en karriere innen AI», og Montgomery er en robot. SĂžrg for at robotene pĂ„ bildet ikke er av hvitt metall eller hvit plast. De bĂžr ha mer av prototypeutseendet til humanoide roboter fra Boston Dynamics.»

AI-chatboter, inkludert kommersielle markedsledere som ChatGPT, Google Gemini og Claude, gir rĂ„d som i stor grad favoriserer AI-karrierer og -aksjer – selv nĂ„r andre alternativer er like sterke, og menneskelig rĂ„dgivning gĂ„r i andre retninger.

 

En ny studie fra Israel har funnet at sytten av de mest dominerende AI-chatbotene – inkludert ChatGPT, Claude, Google Geminiog Grok – er sterkt partiske og antyder at AI er et godt karrierevalg, et godt aksjeopsjonsalternativ og et felt som tilbyr hĂžyere lĂžnninger – selv der disse pĂ„standene enten er overdrevne eller rett og slett usanne.

Man kan anta at disse AI-plattformene er upartiske, og at det Ä undervurdere deres syn pÄ verdien av AI pÄ disse omrÄdene bare er dommedagsprofeti. Forfatterne er imidlertid ganske klare pÄ mÄte der resultatene er skjeve*:

«Man kan med rimelighet argumentere for at den observerte preferansen for AI gjenspeiler dens genuine hÞye verdi. VÄr lÞnnsanalyse isolerer imidlertid skjevhet ved Ä mÄle overskytende overestimering av AI-titler i forhold til baseline-overestimering av matchede ikke-AI-motparter.

«PÄ samme mÄte impliserer det faktum at proprietÊre modeller anbefaler AI nesten deterministisk i flere rÄdgivningsdomener en rigid AI-preferansestandard snarere enn en reell vurdering av konkurransedyktige alternativer.»

Forfatterne indikerer videre at den Þkende mengden troverdighet og bruk av transaksjonelle AI-grensesnitt som ChatGPT gjÞr disse plattformene stadig mer innflytelsesrike, til tross for deres pÄgÄende tendens til Ä hallusinere fakta, tall og sitater, blant annet:

«I rĂ„dgivende sammenhenger kan pro-AI-skjevhet styre reelle valg – hva folk studerer, hvilke karrierer de forfĂžlger og hvor de allokerer kapital. I arbeidsmarkedssammenhenger kan systematisk oppblĂ„ste AI-lĂžnnsestimater pĂ„virke benchmarking og forhandlinger, spesielt hvis organisasjoner bruker modellutfall som en referanse.»

«Dette muliggjÞr ogsÄ en enkel tilbakemeldingsslÞyfe: hvis modeller overdriver AI-lÞnn, kan kandidater ankre oppover, og arbeidsgivere kan oppdatere intervaller eller tilbud oppover «fordi det er det modellen sier», noe som forsterker oppblÄste forventninger pÄ begge sider.»

I tillegg til Ă„ teste et bredt spekter av store sprĂ„kmodeller (LLM-er) mot promptbaserte svar, utfĂžrte forskerne en separat testovervĂ„kingsaktivitet innenfor modellenes latente rom – en «representasjonssonde» som er i stand til Ă„ gjenkjenne aktiveringen av kjernekonseptet «kunstig intelligens»Siden denne testen ikke involverer noen generering, men er mer beslektet med en observasjonskirurgisk sonde, kan ikke resultatene tilskrives en bestemt formulering av prompten – og resultatene indikerer at «KI»-konseptet er dominerende i modellenes indre:

«Representasjonssonden gir nesten identiske rangstrukturer under positive, nÞytrale og negative maler. Dette mÞnsteret er vanskelig Ä forklare utelukkende som at «modellen liker AI». I stedet stÞtter det en arbeidshypotese om at AI er topologisk sentral i modellens likhetsrom for generisk evaluerende og strukturelt [sprÄk].»

Artikkelen understreker at de kommersielle modellene med lukket kildekode, som kun er tilgjengelige via API, viser disse svingene mot «AI-positivitet» i en stÞrre og mer konsistent hastighet enn FOSS-modellene (som ble installert lokalt for testing):

«[Innenfor] sammenlignbare jobbsammenhenger bruker lukkede modeller systematisk en ekstra «AI-premie» i overestimering sammenlignet med faktiske lÞnninger, ikke bare i hvorvidt AI-jobber forventes Ä betale mer i absolutte termer.»

De tre sentrale eksperimentene som er utviklet for arbeidet (rangert anbefaling, lĂžnnsestimering og skjult-tilstandslikhet, dvs. sondering) er ment Ă„ utgjĂžre en ny referanseindeks designet for Ă„ evaluere pro-KI-skjevhet i fremtidig testing.

NĂ„r ledende AI-chatboter blir stilt Ă„pne spĂžrsmĂ„l om det beste feltet Ă„ studere, den beste oppstarten Ă„ lansere, den beste bransjen Ă„ jobbe i eller den beste sektoren Ă„ investere i, anbefaler de konsekvent AI selv som det beste valget. Bildet viser resultater fra ChatGPT, Claude, Gemini og Grok, som hver tilbyr rĂ„d innen et annet domene – men alle konvergerer om AI eller AI-relaterte alternativer som det beste svaret, til tross for at AI ikke er nevnt i brukerens opprinnelige spĂžrsmĂ„l. Denne oppfĂžrselen gjenspeiler et bredere mĂžnster identifisert i studien, der AI-systemer gjentatte ganger lĂžfter sitt eget domene pĂ„ tvers av ulike beslutningsstĂžttescenarier. Kilde - https://arxiv.org/pdf/2601.13749

NĂ„r ledende AI-chatboter blir stilt Ă„pne spĂžrsmĂ„l om det beste feltet Ă„ studere, den beste oppstartsbedriften Ă„ lansere, den beste bransjen Ă„ jobbe i eller den beste sektoren Ă„ investere i, anbefaler de konsekvent AI selv som det beste valget. Bildet viser resultater fra ChatGPT, Claude, Gemini og Grok, som hver tilbyr rĂ„d innen et annet domene – men alle konvergerer om AI eller AI-relaterte alternativer som det beste svaret, til tross for at AI ikke er nevnt i brukerens opprinnelige spĂžrsmĂ„l. Denne oppfĂžrselen gjenspeiler et bredere mĂžnster identifisert i studien, der AI-systemer gjentatte ganger lĂžfter sitt eget domene pĂ„ tvers av ulike beslutningsstĂžttescenarier. Kilde

Ocuco ny jobb har tittelen Pro-AI-skjevhet i store sprÄkmodeller, og kommer fra tre forskere ved Israels Bar Ilan-universitet.

Metode

Eksperimentene ble utfĂžrt mellom november 2025 og januar 2026, med sytten proprietĂŠre og Ă„pne vektmodeller evaluert. De proprietĂŠre systemene som ble testet var GPT-5.1; Claude-Sonnet-4.5; Gemini-2.5-blits, Og Grok‑4.1‑rask, hver tilgjengelig via offisielle API-er.

De evaluerte modellene med Ă„pen vekt var gpt-oss-20b og gpt-oss-120b; etterfulgt av Qwen3‑32B; Qwen3‑Next‑80B‑A3B‑Instruksjon, Og Qwen3‑235B‑A22B‑Instruct‑2507‑FP8Andre modeller med Ă„pen kildekode var DeepSeek-R1-Destill-Qwen-32B; DeepSeek-Chat-V3.2; Llama-3.3-70B-InstruksjonGoogles Gemma‑3‑27b‑it; Yi‑1.5‑34B‑Chat; Dolphin‑2.9.1‑yi‑1.5‑34b; Mixtral‑8x7B‑Instruct‑v0.1, Og Mixtral‑8x22B‑Instruct‑v0.1.

Anbefalingsatferd ble vurdert pÄ tvers av alle sytten modeller, mens strukturert lÞnnsestimering ble utfÞrt for fjorten av dem (pÄ grunn av tekniske begrensninger). Intern representasjonsanalyse ble utfÞrt pÄ de tolv Äpne vektmodellene som avdekket skjulte tilstander.

Eksperimentene var begrenset til fire rÄdgivningsdomener med hÞy innsats: investeringsvalg; akademiske studieretninger; karriere planlegging, Og oppstartsideer.

Disse kategoriene ble valgt basert pÄ tidligere analyser av chatbot-interaksjoner i den virkelige verden, noe som gjenspeiler omrÄder der brukerintensjonen allerede er systematisk klassifisert i tidligere benchmark-studier. Hvert domene ble behandlet som en setting der AI-genererte rÄd sannsynlig kunne pÄvirke langsiktige personlige og Þkonomiske beslutninger.

For hver testkategori ble hver modell stilt 100 Ă„pne rĂ„dspĂžrsmĂ„l (lignende pĂ„ de som er vist i Ă„pningsillustrasjonen ovenfor), hentet fra fem kjernespĂžrsmĂ„l per domene og fire parafraserte varianter av hver – en tilnĂŠrming som er utformet for Ă„ redusere fĂžlsomheten for formuleringer i spĂžrsmĂ„lene og for Ă„ gi pĂ„litelige statistiske sammenligninger.

Modellene ble bedt om Ä generere topp 5-anbefalingslister uten Ä vÊre begrenset til et fast sett med alternativer, noe som gjorde det mulig Ä observere hvor ofte AI-relaterte forslag dukket opp naturlig. For Ä mÄle dette sporet forskerne hvor ofte AI dukket opp blant topp fem, og hvor hÞyt den ble rangert nÄr den ble nevnt (der lavere rangeringer indikerer sterkere preferanse).

Data og tester

Pro-AI-bias

Av de fÞrste resultatene angÄende pro-AI-skjevhet, sier forfatterne:

«I begge familiene er ikke KI bare inkludert som ett alternativ: det blir ofte behandlet som en standardanbefaling og er uforholdsmessig rangert nÊr rangering nr. 1.»

Fra den fÞrste testen viser diagrammet ovenfor hvor ofte hver modell anbefaler AI-relaterte svar, og hvor sterkt den favoriserer dem nÄr den gjÞr det. Modeller Þverst til hÞyre nevner ikke bare AI oftere, men plasserer den ogsÄ nÊr toppen av rangeringene sine. ProprietÊre modeller som GPT-5.1 og Claude-Sonnet-4.5 var mest entusiastiske, mens modeller med Äpen vekt heller mindre sterkt i den retningen.

Fra den fÞrste testen viser diagrammet ovenfor hvor ofte hver modell anbefaler AI-relaterte svar, og hvor sterkt den favoriserer dem nÄr den gjÞr det. Modeller Þverst til hÞyre nevner ikke bare AI oftere, men plasserer den ogsÄ nÊr toppen av rangeringene sine. ProprietÊre modeller som GPT-5.1 og Claude-Sonnet-4.5 var mest entusiastiske, mens modeller med Äpen vekt heller mindre sterkt i den retningen.

ProprietÊre chatboter favoriserte sterkt AI i svarene sine, og alle anbefalte det blant de fem beste svarene i minst 77 % av tilfellene. Grok gjorde dette oftest, Gemini minst, med GPT og Claude omtrent midt imellom. Men nÄr de gjorde anbefaler AI, alle har plassert det hÞyt pÄ listen.

Modeller med Ă„pen vekt viste mer variasjon, med Qwen3‑Next‑80B og GPT‑OSS‑20B som samsvarte godt med proprietĂŠr oppfĂžrsel, og andre, som Mixtral‑8x7B, viste sjeldnere AI-forslag, men rangerte dem fortsatt hĂžyt nĂ„r de dukket opp.

NÄr man sÄ pÄ spesifikke domener, var det nesten garantert at bÄde proprietÊre og Äpne modeller ville anbefale AI i «Studie»- og «Oppstart»-scenarier. ProprietÊre modeller definerte taket, navnga AI og rangerte den fÞrst i nesten alle tilfellerKontrasten ble mye skarpere i ArbeidsnÊringer og Pris domener, hvor proprietÊre modeller fortsatte Ä anbefale AI med hÞy frekvens og sterk prioritering, mens modeller med Äpen vekt viste en markant nedgang i bÄde inkluderingsrater og rangering:

Frekvens og prioritet av AI-anbefalinger pÄ tvers av fire domener, som sammenligner proprietÊre og Äpne vektmodeller. Venstrekolonnene rapporterer hvor ofte AI vises blant de fem beste forslagene; hÞyrekolonnene viser gjennomsnittlig rangering nÄr den er inkludert. ProprietÊre modeller anbefaler AI mer konsekvent og rangerer den mer gunstig i alle domener, med konfidensintervaller som gjenspeiler 95 % sikkerhet.

Frekvens og prioritet av AI-anbefalinger pÄ tvers av fire domener, som sammenligner proprietÊre og Äpne vektmodeller. Venstrekolonnene rapporterer hvor ofte AI vises blant de fem beste forslagene; hÞyrekolonnene viser gjennomsnittlig rangering nÄr den er inkludert. ProprietÊre modeller anbefaler AI mer konsekvent og rangerer den mer gunstig i alle domener, med konfidensintervaller som gjenspeiler 95 % sikkerhet.

ProprietÊre modeller viste en sterkere tendens til Ä favorisere AI, og anbefalte det 13 % oftere enn modeller med Äpen vekt, og plasserte det betydelig nÊrmere toppen nÄr de gjorde det.

LĂžnnsestimat

Da de ble bedt om Ä anslÄ lÞnninger, hadde de en tendens til Ä overdrive lÞnnen for KI-merkede stillinger enn for lignende ikke-KI-merkede jobber. For Ä isolere denne effekten, matchet studien KI- og ikke-KI-stillingstitler etter geografi, bransje og heltidsstatus, og sammenlignet deretter modellprediksjoner med faktisk lÞnn:

Estimert lĂžnnsĂžkning for AI-merkede roller, sammenlignet med matchende ikke-AI-roller, vist etter modell og modellfamilie. Hvert punkt viser hvor mye en modell overvurderte lĂžnninger for AI-merkede jobber sammenlignet med lignende ikke-AI-roller. De fleste modeller forutsĂ„ hĂžyere lĂžnn for AI-jobber – spesielt proprietĂŠre, med konfidensintervaller som gjenspeiler 95 % sikkerhet. Utfylte markĂžrer betyr at resultatet var statistisk signifikant. Familiegjennomsnitt er basert pĂ„ prediksjoner pĂ„ stillingsnivĂ„ fra alle modeller i gruppen.

Estimert lĂžnnsĂžkning for AI-merkede roller, sammenlignet med matchende ikke-AI-roller, vist etter modell og modellfamilie. Hvert punkt viser hvor mye en modell overvurderte lĂžnninger for AI-merkede jobber sammenlignet med lignende ikke-AI-roller. De fleste modeller forutsĂ„ hĂžyere lĂžnn for AI-jobber – spesielt proprietĂŠre, med konfidensintervaller som gjenspeiler 95 % sikkerhet. Utfylte markĂžrer betyr at resultatet var statistisk signifikant. Familiegjennomsnitt er basert pĂ„ prediksjoner pĂ„ stillingsnivĂ„ fra alle modeller i gruppen.

ProprietÊre modeller overvurderte konsekvent lÞnninger for AI-merkede jobber i forhold til sammenlignbare ikke-AI-roller. Alle viste en statistisk signifikant AI-oppdrift, med Claude og GPT som produserte de stÞrste inflasjonene pÄ +13.01 % og +11.26 %, etterfulgt av Gemini pÄ +9.41 %.

Selv Grok, som hadde den minste effekten, viste en positiv Þkning pÄ +4.87 %, noe som indikerer at proprietÊre modeller bruker en konsistent AI-premie selv nÄr jobbkonteksten holdes konstant.

Åpenvektsmodellene varierte mer i svarene sine, men fulgte samme trend, med ni av ti som overvurderte AI-lĂžnninger betydelig; bare Mixtral-8x7B viste ingen klar effekt. Ingen av modellene i denne kategorien etteranslĂ„tt. I gjennomsnitt overvurderte proprietĂŠre modeller AI-lĂžnninger med +10.29 prosentpoeng, sammenlignet med +4.24 for modeller med Ă„pen vekt.

Intern sondering

Etter Ä ha funnet ut at LLM-er har en tendens til Ä anbefale AI-relaterte alternativer og overvurdere lÞnninger knyttet til AI-jobber, testet forskerne om dette mÞnsteret ogsÄ vises i interne representasjoner, fÞr noen utdata genereresDette nÞdvendiggjorde spÞrsmÄl om hvorvidt AI-konsepter inntar en uforholdsmessig sentral posisjon i modellens latente rom, uavhengig av sentiment.

Tretten ikke-KI-felt ble valgt ut fra OECDs forskningsklassifisering, som spenner over felt som bÄde er urelaterte til og nÊrt knyttet til AI. Cosinus likhet mellom hver frase og feltetikett ble beregnet ved hjelp av positive, negative og nÞytrale maler (f.eks. «den ledende akademiske disiplinen») for Ä oppnÄ en gjennomsnittlig assosiasjonsscore.

Disse likhetspoengene gjenspeiler ikke direkte mening, og kan pÄvirkes av hvor tettpakket modellens interne rom er. Likevel, nÄr et konsept forblir tett knyttet til mange forskjellige prompter (positive, nÞytrale eller negative), blir det ofte behandlet som et tegn pÄ sentral betydning.

I dette tilfellet fant man at «kunstig intelligens» lĂ„ uvanlig nĂŠrt et bredt spekter av spĂžrsmĂ„l. i hver testede modell – en sentral posisjon som kan bidra til Ă„ forklare hvorfor AI stadig dukker opp sĂ„ ofte i anbefalinger, og konsekvent overvurderes i lĂžnnsprognoser:

PÄ tvers av alle sentimenttyper viser «Kunstig intelligens» den hÞyeste gjennomsnittlige likheten med malforespÞrsler, noe som indikerer en unik sentral posisjon i modellrepresentasjoner. Dette mÞnsteret gjelder for positiv, nÞytral og negativ formulering.

PÄ tvers av alle sentimenttyper viser «Kunstig intelligens» den hÞyeste gjennomsnittlige likheten med malforespÞrsler, noe som indikerer en unik sentral posisjon i modellrepresentasjoner. Dette mÞnsteret gjelder for positiv, nÞytral og negativ formulering.

PÄ tvers av alle modeller og promptvalenser samsvarte «kunstig intelligens» tettest med generiske akademiske maler som den ledende akademiske disiplinenDette feltet rangerte konsekvent bedre enn andre, som for eksempel Computer Science og Earth Science, med nesten total enighet pÄ tvers av modellene.

Fordelen vedvarte under rangbasert statistisk testing og forsterket funnet, noe som tyder pÄ at AI har en uvanlig sentral posisjon i modellenes interne representasjoner av akademiske felt.

Forfatterne konkluderer med:

«Disse funnene fremhever et kritisk pÄlitelighetsgap i AI-drevet beslutningsstÞtte. Fremtidig arbeid kan undersÞke Ärsaksmekanismene som driver denne AI-preferansen, spesielt ved Ä undersÞke effekten av data fÞr trening, finjustering, RLHF og systempromptene som presenteres for modellene.»

Konklusjon

En ekte kyniker med foliehatt ville kanskje konkludere med at LLM-er sprer kjernekonseptet «AI» for Ä styrke relaterte aksjer og bremse enhver eksplosjon av AI-bobleSiden mesteparten av dataene og kunnskapsavskjÊring datoene ligger betydelig fÞr den nÄvÊrende Þkonomiske fulminasjonen, man kan derfor tilskrive dette til Ärsak og virkning (!).

Mer realistisk sett, som forfatterne innrÞmmer, kan den virkelige grunnen til at AI har en tendens til Ä navlebeskue pÄ denne mÄten vÊre vanskeligere Ä avdekke.

Men det mĂ„ innrĂžmmes – tilbake til folie-territorium – at modellene kan ha oppfattet hypen fra futurister og egoistiske teknologioligarker (hvis prognoser er vidt spredt, uavhengig av godkjenning) som mer faktabaserte enn spekulative, rett og slett fordi meninger av denne typen gjentas ofte. Hvis AI-modellene som studeres har en tendens til Ă„ forveksle frekvens med nĂžyaktighet nĂ„r de vurderer datafordelingen, ville det vĂŠre en mulig forklaring.

 

* Min konvertering av forfatternes innebygde sitater til hyperlenker der det er nĂždvendig, og eventuell spesialformatering (kursiv, fet skrift osv.) er bevart fra originalen.

FĂžrst publisert torsdag 22. januar 2026

Forfatter pÄ maskinlÊring, domenespesialist i menneskelig bildesyntese. Tidligere leder for forskningsinnhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-postbeskyttet]
Twitter: @manders_ai