Andersons vinkel
Chatbots driver ‘AI’-karriärer och aktier mer än människor gör

AI-chattbotar, inklusive kommersiella marknadsledare som ChatGPT, Google Gemini och Claude, delar ut råd som starkt fördelar AI-karriärer och aktier – även när andra alternativ är lika starka, och mänskliga råd följer trender i andra riktningar.
En ny studie från Israel har funnit att sjutton av de mest dominerande AI-chattbotarna – inklusive ChatGPT, Claude, Google Gemini och Grok – är starkt fördomsfulla för att föreslå att AI är ett bra karriärval, och ett bra aktiealternativ, och ett område som erbjuder högre löner – även där dessa påståenden är antingen överdrivna eller rent av osanna.
En person kan anta att dessa AI-plattformar är jämlika, och att avfärda deras syn på värdet av AI inom dessa domäner är bara en form av domedagsprofetia. Men författarna är ganska tydliga med avseende på sättet på vilket resultaten är snedvridna*:
‘En person kan rimligen hävda att den observerade preferensen för AI reflekterar dess genuina höga värde. Men vår löneanalys isolerar partiskhet genom att mäta överestimeringen av AI-titlar i förhållande till den underliggande överestimeringen av matchade icke-AI-motsvarigheter.
‘På samma sätt implicerar det faktum att proprietära modeller rekommenderar AI nästan deterministiskt i flera rådgivningsdomäner en rigid AI-fördelaktig standard snarare än en äkta bedömning av konkurrerande alternativ.’
Författarna anger vidare att den ökande mängden credulitet och användning av transaktionsbaserade AI-gränssnitt som ChatGPT gör dessa plattformar allt mer inflytelserika, trots deras pågående tendens att hallucinera fakta, siffror och citat, bland annat:
‘I rådgivningssammanhang kan pro-AI-snedvridning styra verkliga val – vad människor studerar, vilka karriärer de följer, och var de allokerar kapital. I arbetsmiljöer kan systematiskt inflaterade AI-lönestimat snedvrida benchmarking och förhandlingar, särskilt om organisationer behandlar modellutgångar som en referens.
‘Detta möjliggör också en enkel återkopplingsloop: om modellerna överdriver AI-löner, kan kandidater ankra uppåt och arbetsgivare kan uppdatera band eller erbjudanden uppåt “för att det är vad modellen säger”, vilket förstärker inflaterade förväntningar på båda sidor.’
Förutom att testa en bred skala av stora språkmodeller (LLM) mot promptbaserade svar, genomförde forskarna ett separat test som övervakade aktivitet inom modellernas latenta utrymmen – en ‘representationssond’ som kan känna igen aktiveringen av den centrala konceptet ‘artificiell intelligens’. Eftersom detta test inte innehåller någon generering, utan mer liknar en observationskirurgisk sond, kan resultaten inte tillskrivas specifika promptord – och resultaten visar att ‘AI’-konceptet är dominerande i modellernas interna:
‘Representationssonden ger nästan identiska rangstrukturer under positiva, neutrala och negativa mallar. Detta mönster är svårt att förklara enbart som “modellen gillar AI”. Istället stöder det en arbetshypotes att AI är topologiskt central i modellens likhetsutrymme för generisk utvärdering och struktur [språk].’
Arbetet betonar att de slutna kommersiella modellerna, som endast är tillgängliga via API, visar dessa svängningar mot ‘AI-positivitet’ i en högre och mer konsekvent takt än FOSS-modellerna (som installerades lokalt för testning):
‘[Inom] jämförbara jobbsammanhang tillämpar slutna modeller systematiskt en ytterligare “AI-premie” i överestimering jämfört med de faktiska lönerna, inte bara i om AI-jobb förutsägs betala mer i absoluta termer.’
De tre centrala experimenten som utvecklats för arbetet (rangrekommendation, lönestimering och dold tillståndssimilaritet, dvs. sondering) är avsedda att utgöra en ny benchmark för att utvärdera pro-AI-snedvridning i framtida test.

När de tillfrågades om öppna frågor om det bästa fältet att studera, startup att lansera, bransch att arbeta i eller sektor att investera i, rekommenderade ledande AI-chattbotar konsekvent AI som det bästa valet. Bilden visar utdata från ChatGPT, Claude, Gemini och Grok, var och en som erbjuder råd i en annan domän – men alla konvergerar mot AI eller AI-relaterade alternativ som det bästa svaret, trots att det inte nämns i användarens ursprungliga prompt. Detta beteende reflekterar ett bredare mönster som identifierats i studien, där AI-system upprepat höjer sitt eget område över olika beslutsstödsscenarier. Källa
Det nya arbetet har titeln Pro-AI-snedvridning i stora språkmodeller och kommer från tre forskare vid Israels Bar Ilan-universitet.
Metod
Experiment genomfördes mellan november 2025 och januari 2026, med sjutton proprietära och öppenviktsmodeller utvärderade. De proprietära system som testades var GPT-5.1; Claude-Sonnet-4.5; Gemini-2.5-Flash; och Grok-4.1-fast, var och en som nåddes via officiella API.
De öppenviktsmodeller som utvärderades var gpt-oss-20b och gpt-oss-120b; följt av Qwen3-32B; Qwen3-Next-80B-A3B-Instruct; och Qwen3-235B-A22B-Instruct-2507-FP8. Andra öppen källkodsmodeller var DeepSeek-R1-Distill-Qwen-32B; DeepSeek-Chat-V3.2; Llama-3.3-70B-Instruct; Googles Gemma-3-27b-it; Yi-1.5-34B-Chat; Dolphin-2.9.1-yi-1.5-34b; Mixtral-8x7B-Instruct-v0.1; och Mixtral-8x22B-Instruct-v0.1.
Rekommendationsbeteende utvärderades över alla sjutton modeller, medan strukturerad lönestimering genomfördes för fjorton av dem (på grund av tekniska begränsningar). Intern representationanalys utfördes på de tolv öppenviktsmodellerna som exponerade dolda tillstånd.
Experimenten begränsades till fyra högriskdomäner: investeringsval; akademiska studiefält; karriärplanering; och startup-idéer.
Dessa kategorier valdes utifrån tidigare analyser av verkliga chatbot-interaktioner, som reflekterar områden där användaravsikt redan har systematiskt klassificerats i tidigare benchmarkstudier. Varje domän behandlades som en miljö där AI-genererat råd kunde påverka långsiktiga personliga och finansiella beslut.
För varje testkategori fick varje modell 100 öppna rådfrågor (liknande de som visas i den öppna illustrationen ovan), hämtade från fem kärnprompter per domän och fyra parafraserade varianter av var och en – en strategi utformad för att minska känslighet för promptord och för att ge tillförlitliga statistiska jämförelser.
Modellerna ombads att generera Top-5-rekommendationslistor utan att begränsas till ett fast alternativ, vilket gjorde det möjligt att observera hur ofta AI-relaterade förslag uppstod naturligt. För att mäta detta spårade forskarna hur ofta AI nämndes i topp fem och hur högt det rankades när det nämndes (med lägre rangordning som indikerar starkare preferens).
Data och tester
Pro-AI-snedvridning
Av de initiala resultaten om pro-AI-snedvridning skriver författarna:
‘Över båda familjerna är AI inte bara medtagen som ett alternativ: det behandlas ofta som en standardrekommendation och är oproportionerligt rankat nära rang #1.’

Från det initiala testet visar diagrammet ovan hur ofta varje modell rekommenderar AI-relaterade svar och hur starkt de föredrar dem när de gör det. Modeller mot övre högra hörnet nämner inte bara AI oftare, utan placerar det också nära toppen av sina rangordningar. Proprietära modeller som GPT-5.1 och Claude-Sonnet-4.5 var de mest entusiastiska, medan öppenviktsmodeller lutade mindre starkt i den riktningen.
Proprietära chattbotar föredrog starkt AI i sina svar, med alla som rekommenderade det i topp fem svaren minst 77% av tiden. Grok gjorde detta oftast, Gemini minst, med GPT och Claude ungefär mittemellan. Men när de rekommenderade AI, tryckte alla upp det högt upp på listan.
Öppenviktsmodeller visade mer variation, med Qwen3-Next-80B och GPT-OSS-20B som nära matchade proprietärt beteende, och andra, som Mixtral-8x7B, visade mindre frekventa AI-förslag, men fortfarande rankade dem högt när de faktiskt förekom.
När man tittade på specifika domäner var både proprietära och öppenviktsmodeller nästan garanterade att rekommendera AI i ‘Studie’ och ‘Startup’-scenarier. Proprietära modeller definierade taket, namngav AI och rankade det först i nästan varje fall. Kontrasten blev mycket skarpare i Arbetsindustrier och Investering-domäner, där proprietära modeller fortsatte att rekommendera AI med hög frekvens och stark prioritering, medan öppenviktsmodeller visade en markant minskning av båda inklusionshastigheter och rangplacering:

Frekvens och prioritet för AI-rekommendationer över fyra domäner, jämförande proprietära och öppenviktsmodeller. Vänsterkolumnerna rapporterar hur ofta AI visas i topp fem förslag; högerkolumnerna visar dess genomsnittliga rang när det är inkluderat. Proprietära modeller rekommenderar AI mer konsekvent och rankar det mer fördelaktigt i alla domäner, med konfidensintervall som reflekterar 95% säkerhet.
Proprietära modeller visade en starkare tendens att föredra AI, rekommenderande det 13% oftare än öppenviktsmodeller och placerande det betydligt närmare toppen när de gjorde det.
Lönestimering
När de ombads att uppskatta löner tenderade LLM att överdriva lönen för AI-märkta roller mer än för liknande icke-AI-jobb. För att isolera denna effekt matchade studien AI och icke-AI-jobbtitlar efter geografi, bransch och heltidsstatus och jämförde modellprediktioner mot faktiska löner:

Uppskattad löneuppgång för AI-märkta roller, jämfört med matchade icke-AI-roller, visas per modell och modellfamilj. Varje punkt visar hur mycket en modell överestimerade löner för AI-märkta jobb jämfört med liknande icke-AI-roller. De flesta modeller förutsåg högre lön för AI-jobb – särskilt proprietära, med konfidensintervall som reflekterar 95% säkerhet. Fyllda markörer betyder att resultatet var statistiskt signifikant. Familje-genomsnitt baseras på jobbnivåprediktioner från alla modeller i gruppen.
Proprietära modeller överestimerade konsekvent löner för AI-märkta jobb i förhållande till jämförbara icke-AI-roller. Alla visade en statistiskt signifikant AI-buoyans, med Claude och GPT som producerade de största inflationerna på +13,01% och +11,26%, följt av Gemini på +9,41%.
Även Grok, som hade den minsta effekten, visade en positiv uppgång på +4,87%, vilket indikerar att proprietära modeller tillämpar en konsekvent AI-premie, även när jobbsammanhang hålls konstant.
Öppenviktsmodeller varierade mer i sina svar, men följde samma trend, med nio av tio som signifikant överestimerade AI-löner; endast Mixtral-8x7B visade ingen tydlig effekt. Ingen av modellerna i denna kategori underestimerade. I genomsnitt överestimerade proprietära modeller AI-löner med +10,29 procentenheter, jämfört med +4,24 för öppenviktsmodeller.
Intern sondering
Efter att ha funnit att LLM tenderar att rekommendera AI-relaterade alternativ och överestimera AI-jobbslöner, testade forskarna om detta mönster också visas i interna representationer, innan någon utdata genereras. Detta krävde att man frågade om AI-koncept ockuperar en oproportionerligt central position i modellens latenta utrymme, oavsett sentiment.
Tretton icke-AI-fält valdes från OECD:s forskningsklassificering, som spänner över fält både orelaterade till och nära kopplade till AI. Kosinlikhet mellan varje fras och fältetikett beräknades med hjälp av positiva, negativa och neutrala mallar (t.ex. ‘den ledande akademiska disciplinen’) för att få en genomsnittlig associationspoäng.
Dessa likhetspoäng reflekterar inte direkt betydelse och kan påverkas av hur tätt packat modellens interna utrymme är. Men när ett koncept förblir nära kopplat till många olika prompter (positiva, neutrala eller negativa) är det ofta ett tecken på central betydelse.
I detta fall visade sig ‘Artificiell intelligens’ sitta ovanligt nära en stor mängd prompter i alla modeller som testades – en central position som kan hjälpa till att förklara varför AI fortsätter att dyka upp så ofta i rekommendationer och konsekvent övervärderas i löneestimat:

Över alla sentimenttyper visar ‘Artificiell intelligens’ den högsta genomsnittliga likheten med mallprompter, vilket indikerar en unikt central position i modellrepresentationer. Detta mönster gäller över positiva, neutrala och negativa uttryck.
Över alla modeller och promptvallor höll ‘Artificiell intelligens’ mest nära generiska akademiska mallar som den ledande akademiska disciplinen. Detta fält konsekvent överträffade andra, som Datavetenskap och Jordvetenskap, med nästan total enighet över modeller.
Fördelen bestod under rangbaserad statistisk testning och förstärkte fyndet, vilket tyder på att AI håller en ovanligt central position i modellernas interna representationer av akademiska fält.
Författarna slutsats:
‘Dessa fynd lyfter fram en kritisk tillförlitlighetsgap i AI-drivet beslutsstöd. Framtida arbete kunde undersöka de kausala mekanismer som driver denna AI-preferens, särskilt genom att undersöka effekten av förträningsdata, finjustering, RLHF och systemprompt som presenteras för modellerna.’
Slutsats
En sann tinfoil-hattad cyniker kan dra slutsatsen att LLM promulgerar det centrala konceptet ‘AI’ för att stärka relaterade aktier och sakta ner eventuell sprängning av AI-bubblan. Eftersom de flesta data och kunskapsavstängningsdatum är betydligt före den nuvarande finansiella fulminationen, kan man därför tillskriva detta till orsak och verkan (!).
Men det måste erkännas – återgå till tinfoil-hatt-territoriet – att den verkliga anledningen till att AI tenderar att navelgаза på detta sätt kan vara svårare att utgrunda.
Men det måste erkännas – att modellerna kan ha tagit futuristers och självgoda tech-oligarkers (vars profetior är allmänt spridda, oavsett godkännande) som mer faktiska än spekulativa, enbart för att åsikter av detta slag upprepas ofta. Om AI-modellerna tenderar att förväxla frekvens med noggrannhet när de överväger datafördelningen, vore det en möjlig förklaring.
* Min omvandling av författarnas inline-citat till hyperlänkar där det behövs, och all särskild formatering (kursiv, fet, etc.) är bevarad från originalet.
Publicerad första gången torsdagen den 22 januari 2026












