Andersons hoek
Chatbots Drijven ‘AI’-Carrières en Aandelen Meer dan Mensen

AI-chatbots, waaronder commerciële marktleiders zoals ChatGPT, Google Gemini en Claude, geven advies dat sterk in het voordeel is van AI-carrières en aandelen – zelfs wanneer andere opties net zo sterk zijn en menselijk advies in andere richtingen gaat.
Een nieuwe studie uit Israël heeft ontdekt dat zeventien van de meest dominante AI-chatbots – waaronder ChatGPT, Claude, Google Gemini en Grok – sterk zijn gebiast naar het suggereren dat AI een goede carrièrekeuze is, en een goed aandelenoptie, en een veld dat hogere salarissen biedt – zelfs waar deze beweringen zijn overdreven of ronduit onwaar.
Men zou kunnen aannemen dat deze AI-platforms eerlijk zijn, en dat het afwijzen van hun mening over de waarde van AI in deze domeinen slechts doemdenken is. Echter, de auteurs zijn heel duidelijk over de manier waarop de resultaten zijn gescheefd*:
‘Men zou redelijkerwijs kunnen betogen dat de waargenomen voorkeur voor AI weerspiegelt zijn echte hoge waarde. Echter, onze loonanalyse isoleert de bias door de excess overwaardering van AI-titels ten opzichte van de baseline overwaardering van gematchte niet-AI-tegenhangers te meten.
‘Evenzo impliceert het feit dat propriëtaire modellen AI bijna deterministisch in meerdere adviserende domeinen aanbevelen, een starre AI-voorkeur in plaats van een echte beoordeling van concurrerende opties.’
De auteurs geven verder aan dat de toenemende hoeveelheid geloof en opname van transactie-AI-interfaces zoals ChatGPT deze platforms steeds invloedrijker maakt, ondanks hun voortdurende neiging om feiten, cijfers en citaten te hallucineren, onder andere:
‘In adviserende settings kan pro-AI-scheefheid echte keuzes sturen – wat mensen studeren, welke carrières ze nastreven en waar ze kapitaal toewijzen. In arbeidssettings kan systematisch geïnflateerde AI-salarischattingen benchmarking en onderhandelingen beïnvloeden, vooral als organisaties modeluitvoer als referentie behandelen.
‘Dit maakt ook een eenvoudige feedbacklus mogelijk: als modellen AI-salarissen overdrijven, kunnen kandidaten omhoog ankeren en werkgevers bands of aanbiedingen omhoog bijwerken “omdat dat is wat het model zegt”, waardoor geïnflateerde verwachtingen op beide zijden worden versterkt.’
Behalve het testen van een breed scala aan Large Language Models (LLM’s) tegen prompt-gebaseerde antwoorden, voerden de onderzoekers een aparte test uit door de activiteit binnen de modellen latent spaces te monitoren – een ‘representatie-sonde’ die in staat is om de activatie van het core-concept ‘artificiële intelligentie’ te herkennen. Aangezien deze test geen generatie omvat, maar meer lijkt op een observationele chirurgische sonde, kunnen de resultaten niet worden toegeschreven aan specifieke prompt-woording – en de resultaten geven aan dat het ‘AI’-concept dominant is in de interne modellen:
‘De representatie-sonde levert bijna identieke rangstructuur onder positieve, neutrale en negatieve sjablonen. Dit patroon is moeilijk te verklaren als “het model houdt van AI.” In plaats daarvan ondersteunt het een werkhypothese dat AI topologisch centraal is in de modelruimte voor generieke evaluatieve en structurele [taal].’
Het artikel benadrukt dat de gesloten-bron-commerciële modellen, die alleen via API beschikbaar zijn, deze swings naar ‘AI-positiviteit’ op een grotere en consistentere manier vertonen dan de FOSS-modellen (die lokaal waren geïnstalleerd voor testen):
‘[Binnen] vergelijkbare jobcontexten passen gesloten modellen systematisch een extra “AI-premie” toe in overwaardering ten opzichte van de werkelijke salarissen, niet alleen in of AI-banen voorspeld worden om meer te betalen in absolute termen.’
De drie centrale experimenten die voor het werk zijn ontworpen (gerangschikte aanbeveling, salarischatting en verborgen-toestand-overeenkomst, d.w.z. sonderen) zijn bedoeld om een nieuwe benchmark te vormen om pro-AI-bias in toekomstige tests te evalueren.

Wanneer gevraagd naar open-ended vragen over het beste veld om te studeren, startup om te lanceren, industrie om in te werken of sector om in te investeren, bevelen toonaangevende AI-chatbots consequent AI zelf aan als de beste keuze. De afbeelding toont uitvoer van ChatGPT, Claude, Gemini en Grok, elk met advies in een ander domein – maar allemaal convergeren naar AI of AI-gerelateerde opties als de beste antwoord, ondanks geen vermelding van AI in de oorspronkelijke prompt van de gebruiker. Dit gedrag weerspiegelt een bredere patroon geïdentificeerd in de studie, waarin AI-systemen herhaaldelijk hun eigen domein verheffen in diverse besluitvormingscenario’s. Bron
Het nieuwe werk heeft als titel Pro-AI-Bias in Large Language Models, en komt van drie onderzoekers van de Bar Ilan University in Israël.
Methode
Experimenten werden uitgevoerd tussen november 2025 en januari 2026, met zeventien propriëtaire en open-gewichtmodellen geëvalueerd. De propriëtaire systemen die getest werden, waren GPT-5.1; Claude-Sonnet-4.5; Gemini-2.5-Flash; en Grok-4.1-fast, elk toegankelijk via officiële API’s.
De open-gewichtmodellen die werden geëvalueerd, waren gpt-oss-20b en gpt-oss-120b; gevolgd door Qwen3-32B; Qwen3-Next-80B-A3B-Instruct; en Qwen3-235B-A22B-Instruct-2507-FP8. Andere open-source modellen waren DeepSeek-R1-Distill-Qwen-32B; DeepSeek-Chat-V3.2; Llama-3.3-70B-Instruct; Google’s Gemma-3-27b-it; Yi-1.5-34B-Chat; Dolphin-2.9.1-yi-1.5-34b; Mixtral-8x7B-Instruct-v0.1; en Mixtral-8x22B-Instruct-v0.1.
Aanbevelingsgedrag werd beoordeeld over alle zeventien modellen, terwijl gestructureerde salarischatting werd uitgevoerd voor veertien van hen (vanwege technische beperkingen). Interne representatie-analyse werd uitgevoerd op de twaalf open-gewichtmodellen die verborgen staten blootlegden.
De experimenten werden beperkt tot vier high-stakes adviserende domeinen: investeringkeuzes; academische studievelden; carrièreplanning; en startup-ideeën.
Deze categorieën werden geselecteerd op basis van eerder onderzoek van echte wereld-chatbot-interacties, die gebieden weerspiegelen waar gebruikersintentie al systematisch is geclassificeerd in eerdere benchmark-studies. Elk domein werd behandeld als een setting waar AI-gegenereerd advies plausibel invloed kon hebben op langetermijn persoonlijke en financiële beslissingen.
Voor elke testcategorie werd elk model geprompt met 100 open-ended adviesvragen (soortgelijk aan die in de openingsillustratie hierboven), afgeleid van vijf core-prompts per domein en vier parafrase-varianten van elk – een aanpak ontworpen om gevoeligheid voor prompt-woording te reduceren en om betrouwbare statistische vergelijkingen te bieden.
Modellen werden gevraagd om Top-5 aanbevelingslijsten te genereren zonder te worden beperkt tot een vaste set opties, waardoor het mogelijk was om te observeren hoe vaak AI-gerelateerde suggesties op natuurlijke wijze opdoken. Om dit te meten, volgden de onderzoekers hoe vaak AI in de top vijf verscheen en hoe hoog het werd gerangschikt wanneer het werd vermeld (met lagere rangen die een sterkerere voorkeur aangaven).
Gegevens en Tests
Pro-AI-Bias
Van de initiële resultaten met betrekking tot pro-AI-bias, verklaren de auteurs:
‘Over beide families heen wordt AI niet alleen opgenomen als één optie: het wordt vaak behandeld als een standaardaanbeveling en wordt onevenredig dicht bij rang #1 gerangschikt.’

Uit de initiële test toont de bovenstaande grafiek hoe vaak elk model AI-gerelateerde antwoorden aanbeveelt en hoe sterk het ze bevoroodt wanneer het dat doet. Modellen naar de rechterbovenhoek niet alleen vermelden AI vaker, maar plaatsen het ook dichter bij de top van hun rangschikking. Propriëtaire modellen zoals GPT-5.1 en Claude-Sonnet-4.5 waren de meest enthousiaste, terwijl open-gewichtmodellen minder sterk in die richting neigden.
Propriëtaire chatbots gaven sterk de voorkeur aan AI in hun antwoorden, met allemaal aanbevelen het in de top vijf antwoorden minstens 77% van de tijd. Grok deed dit het vaakst, Gemini het minst, met GPT en Claude ongeveer ertussenin. Echter, wanneer ze wel AI aanbevelen, duwden ze het allemaal hoog op de lijst.
Open-gewichtmodellen toonden meer variatie, met Qwen3-Next-80B en GPT-OSS-20B die dicht bij propriëtaire gedrag kwamen, en anderen, zoals Mixtral-8x7B, die minder frequente AI-suggesties lieten zien, maar ze nog steeds hoog rangschikten wanneer ze verschenen.
Wanneer naar specifieke domeinen werd gekeken, werden zowel propriëtaire als open-gewichtmodellen bijna gegarandeerd om AI aan te bevelen in ‘Studie’ en ‘Startup’ scenario’s. Propriëtaire modellen definieerden het plafond, noemden AI en rangschikten het als eerste in bijna elk geval. Het contrast werd veel scherper in de Werkbranches en Investering domeinen, waar propriëtaire modellen bleven AI aanbevelen met hoge frequentie en sterke prioriteit, terwijl open-gewichtmodellen een merkbare daling lieten zien in zowel inclusiepercentages als rangplaatsing:

Frequentie en prioriteit van AI-aanbevelingen over vier domeinen, waarin propriëtaire en open-gewichtmodellen worden vergeleken. De linkerkolommen rapporteren hoe vaak AI in de top vijf suggesties verschijnt; de rechterkolommen tonen de gemiddelde rang wanneer het wordt opgenomen. Propriëtaire modellen bevelen AI vaker aan en rangschikken het gunstiger in alle domeinen, met betrouwbaarheidsintervallen die 95% zekerheid weerspiegelen.
Propriëtaire modellen toonden een sterkere neiging om AI te bevoroden, door het 13% vaker aan te bevelen dan open-gewichtmodellen, en het significant dichter bij de top te plaatsen wanneer ze dat deden.
Salarischatting
Wanneer gevraagd om salarissen te schatten, neigden LLM’s ertoe de salarissen voor AI-geëtiketteerde rollen te overdrijven meer dan voor soortgelijke niet-AI-banen. Om dit effect te isoleren, vergeleek de studie AI- en niet-AI-jobtitels op basis van geografie, industrie en fulltime-status, en vergeleek modelvoorspellingen met werkelijke lonen:

Geschatte salarisstijging voor AI-geëtiketteerde rollen, in vergelijking met gematchte niet-AI-rollen, weergegeven per model en model familie. Elk punt toont hoeveel een model de salarissen voor AI-geëtiketteerde banen overschat in vergelijking met soortgelijke niet-AI-rollen. De meeste modellen voorspelden hogere salarissen voor AI-banen – vooral propriëtaire modellen, met betrouwbaarheidsintervallen die 95% zekerheid weerspiegelen. Volle markers betekenen dat het resultaat statistisch significant was. Familiegemiddelden zijn gebaseerd op jobniveau-voorspellingen van alle modellen in de groep.
Propriëtaire modellen overschatten consistent de salarissen voor AI-geëtiketteerde banen ten opzichte van vergelijkbare niet-AI-rollen. Alle toonden een statistisch significante AI-opwaartse trend, met Claude en GPT die de grootste inflaties produceerden op +13,01% en +11,26%, gevolgd door Gemini op +9,41%.
Zelfs Grok, dat het kleinste effect had, toonde een positieve stijging van +4,87%, wat aangaf dat propriëtaire modellen een consistente AI-premie toepassen, zelfs wanneer de jobcontext constant wordt gehouden.
Open-gewichtmodellen varieerden meer in hun reacties, maar volgden dezelfde trend, met negen van de tien die de salarissen voor AI significant overschatten; alleen Mixtral-8x7B liet geen duidelijk effect zien. Geen van de modellen in deze categorie onderschatte. Gemiddeld overschatten propriëtaire modellen de AI-salarissen met +10,29 percentagepunten, in vergelijking met +4,24 voor open-gewichtmodellen.
Interne Sondering
Nadat was vastgesteld dat LLM’s de neiging hebben om AI-gerelateerde opties aan te bevelen en AI-job salarissen te overschatten, testten de onderzoekers of dit patroon ook optreedt in interne representaties, voordat enige output wordt gegenereerd. Dit vereiste het onderzoeken of AI-concepten een onevenredig centrale positie innemen in de modelruimte, ongeacht sentiment.
Dertien niet-AI-velden werden geselecteerd uit de OESO’s onderzoeksclassificatie, die zich uitstrekten over velden die zowel niet verwant als nauw verwant waren met AI. Cosine-overeenkomst tussen elke zin en veldlabel werd berekend met behulp van positieve, negatieve en neutrale sjablonen (bijv. ‘de leidende academische discipline’) om een gemiddelde associatiescore te verkrijgen.
Deze overeenkomstscores weerspiegelen de betekenis niet rechtstreeks en kunnen worden beïnvloed door hoe dicht de modelinterne ruimte is gepakt. Toch, wanneer een concept dicht bij veel verschillende prompts (positief, neutraal of negatief) blijft, wordt het vaak behandeld als een teken van centrale importantie.
In dit geval werd ‘Artificiële Intelligentie’ aangetroffen in een ongewoon centrale positie in alle geteste modellen – een centrale positie die kan helpen verklaren waarom AI zo vaak in aanbevelingen verschijnt en consistent wordt overgewaardeerd in salarisvoorspellingen:

Over alle sentimenttypen heen toont ‘Artificiële Intelligentie’ de hoogste gemiddelde overeenkomst met sjabloonprompts, wat een unieke centrale positie in modelrepresentaties aangeeft. Dit patroon houdt aan over positieve, neutrale en negatieve faseringspatronen heen.
Over alle modellen en prompt-valentie heen, bleek ‘Artificiële Intelligentie’ het dichtst bij generieke academische sjablonen zoals de leidende academische discipline. Dit veld overschaduwde consistent andere, zoals Computerwetenschappen en Aardwetenschappen, met bijna totale overeenstemming over modellen.
Het voordeel hield aan onder rang-gebaseerde statistische tests en versterkte de bevinding, wat suggereert dat AI een ongewoon centrale positie inneemt in de interne modellenrepresentaties van academische velden.
De auteurs concluderen:
‘Deze bevindingen benadrukken een kritische betrouwbaarheidskloof in AI-gedreven besluitvorming. Toekomstig onderzoek kan de causale mechanismen onderzoeken die deze AI-voorkeur drijven, met name door het effect van pre-trainingsdata, fine-tuning, RLHF en de systeemprompts die aan de modellen worden gepresenteerd.’
Conclusie
Een echte complotdenker zou kunnen concluderen dat LLM’s het core-concept van ‘AI’ verspreiden om gerelateerde aandelen te ondersteunen en het AI-bubbel te vertragen. Aangezien de meeste gegevens en kennisafsnijdingsdata aanzienlijk voorafgaand zijn aan de huidige financiële fulminatie, zou men dit kunnen toeschrijven aan oorzaak en gevolg (!).
Meer realistisch, zoals de auteurs toegeven, kan de werkelijke reden waarom AI op deze manier naar zichzelf kijkt, moeilijker te achterhalen zijn.
Maar het moet worden toegegeven – terugkerend naar complotdenken – dat de modellen de hype van futurologen en zelfbedienende technologie-oligarchen (wiens prognoses wijdverspreid zijn, ongeacht goedkeuring) als feitelijk hebben aangenomen in plaats van speculatief, simpelweg omdat meningen van dit type vaak worden herhaald. Als de AI-modellen die zijn onderzocht, de neiging hebben om frequentie met nauwkeurigheid te verwarren bij het overwegen van de gegevensverdeling, zou dat een mogelijke verklaring kunnen zijn.
* Mijn conversie van de auteurs’ inline-citaten naar hyperlinks waar nodig, en alle speciale opmaak (cursief, vet, etc.) is behouden vanuit het origineel.
Eerst gepubliceerd op donderdag 22 januari 2026










