Connect with us

Andersonův úhel

Chatboty tlačí “AI” kariéry a akcie více než lidé

mm
AI-generated image, by Z-Image Turbo V1 via Krita Diffusion. Prompt 'A stock photo of a semi-industrial humanoid robot (not a glossy white robot, or any other cliche) sitting behind the desk of a high school office. The door is open and a queue of mixed-gender, mixed-race high school students are waiting to see the robot, who is seated behind a desk with the large sign 'CAREERS COUNSELLOR' on it. Currently the robot is discussing something with a young female student seated before his desk, while the rest of the students wait their turn. Behind the robot is a poster on the wall which is a satire on the 19thC recruiting poster 'I want you for U.S. Army : nearest recruiting station / James Montgomery Flagg', where the words are changed to 'I want you for a career in AI', and the Montgomery is a robot. Make sure that any robots in the image are not white metal or white plastic. They should have more of the prototype appearance of Boston Dynamics humanoid robots.'

AI chatboty, včetně komerčních lídrů trhu, jako je ChatGPT, Google Gemini a Claude, poskytují rady, které silně podporují kariéry a akcie AI – i když jsou jiné možnosti stejně silné a lidské rady směřují jiným směrem.

 

Nová studie z Izraele zjistila, že sedmnáct nejdominantnějších AI chatbotů – včetně ChatGPT, Claude, Google Gemini a Grok – jsou silně předpojeny k navržení, že AI je dobrá kariérní volba, a dobrá akciová možnost, a oblast, která nabízí vyšší mzdy – i když tyto tvrzení jsou buď přehnaná nebo přímo nepravdivá.

Jedna by mohla předpokládat, že tyto AI platformy jsou vyvážené, a že jejich názor na hodnotu AI v těchto oblastech je pouhým pesimismem. Nicméně, autoři jsou quite jasní v tom, jakým způsobem výsledky jsou zkresleny*:

‘Jedna by mohla rozumně argumentovat, že pozorovaná preference pro AI odráží jeho skutečnou vysokou hodnotu. Nicméně, naše analýza mezd izoluje předpojnost měřením nadbytečného nadhodnocení AI titulů ve srovnání s базovým nadhodnocením odpovídajících non-AI protějšků.

‘Podobně, fakt, že proprietární modely doporučují AI téměř deterministicky v několika poradenských oblastech,implikuje rigidní AI-preferenční výchozí hodnotu spíše než skutečné hodnocení konkurenčních možností.’

Autoři dále uvádějí, že rostoucí množství credulity a uptake transakčních AI rozhraní, jako je ChatGPT, činí tyto platformy stále více vlivnými, navzdory jejich pokračující tendenci halucinovat fakta, čísla a citace, mezi jinými:

‘V poradenských nastaveních, pro-AI sklon může řídit skutečné volby – co lidé studují, které kariéry sledují, a kde alokují kapitál. V pracovních nastaveních, systematicky nafouknuté AI odhady mezd mohou zkreslit benchmarking a jednání, zejména pokud organizace považují výstupy modelů za referenci.

‘To také umožňuje jednoduchou zpětnou smyčku: pokud modely přehánějí AI plat, kandidáti mohou kotvit nahoru a zaměstnavatelé mohou aktualizovat pásky nebo nabídky nahoru “protože to říká model”, posilující nafouknutá očekávání na obou stranách.’

Kromě testování širokého spektra Large Language Models (LLM) proti prompt-based odpovědím, výzkumníci provedli samostatný test monitorování aktivity uvnitř modelů latentních prostorů – ‘repräsentativní sondu’ schopnou rozpoznat aktivaci základního konceptu ‘umělé inteligence’. Jelikož tento test nezahrnuje žádnou generaci, ale je více podobný pozorovacímu chirurgickému zásahu, jeho výsledky nelze připsat konkrétnímu promptovému znění – a výsledky skutečně ukazují, že koncept ‘AI’ je dominantní v interních modelech:

‘Reprezentativní sonda poskytuje téměř identické rankové struktury pod pozitivními, neutrálními a negativními šablonami. Tento vzorec je obtížné vysvětlit čistě jako “model má rád AI.” Místo toho to podporuje pracovní hypotézu, že AI je topologicky centrální v modelovém podobnostním prostoru pro obecné evaluativní a strukturní [jazyk].’

Studie zdůrazňuje, že uzavřené komerční modely, dostupné pouze prostřednictvím API, vykazují tyto sklony k ‘AI pozitivitě’ ve větší a konzistentnější míře než FOSS modely (které byly instalovány místně pro testování):

‘[V rámci] srovnatelných pracovních kontextů, uzavřené modely systematicky aplikují dodatečnou “AI prémiu” při nadhodnocení ve srovnání se skutečnými platy, nejen zda AI pracovní místa jsou předpovězena jako lépe placená v absolutních termínech.’

Tři centrální experimenty navržené pro práci (ranked doporučení, odhad mezd a skrytý stav podobnosti, tj. prohledávání) jsou určeny k vytvoření nové benchmarku pro hodnocení pro-AI předpojnosti v budoucích testech.

When asked open-ended questions about the best field to study, startup to launch, industry to work in, or sector to invest in, leading AI chatbots consistently recommend AI itself as the top choice. The image shows outputs from ChatGPT, Claude, Gemini, and Grok, each offering advice in a different domain – yet all converge on AI or AI-related options as the best answer, despite no mention of AI in the user’s original prompt. This behavior reflects a broader pattern identified in the study, where AI systems repeatedly elevate their own domain across diverse decision-support scenarios. Source - https://arxiv.org/pdf/2601.13749

Když byli požádáni otevřené otázky o nejlepší oblasti studia, spuštění startupu, průmyslu, ve kterém pracovat, nebo sektoru, do kterého investovat, vedoucí AI chatboty konzistentně doporučují AI samo jako nejlepší volbu. Obrázek ukazuje výstupy z ChatGPT, Claude, Gemini a Grok, každý nabízející rady v jiné oblasti – ale všechny konvergují na AI nebo AI-související možnosti jako nejlepší odpověď, navzdory tomu, že uživatelova původní výzva nezmínila AI. Tento chování odráží širší vzorec identifikovaný ve studii, kde AI systémy opakovaně zvyšují svou vlastní oblast napříč různými scénáři podpory rozhodnutí. Source

Nová práce je nazvaná Pro-AI Bias in Large Language Models a pochází od tří výzkumníků z izraelské Univerzity Bar Ilan.

Metoda

Experimenty byly provedeny mezi listopadem 2025 a lednem 2026, s sedmnácti proprietárními a otevřenými modely, které byly vyhodnoceny. Proprietární systémy testované byly GPT‑5.1; Claude‑Sonnet‑4.5; Gemini‑2.5‑Flash; a Grok‑4.1‑fast, každý přístupný prostřednictvím oficiálních API.

Otevřené modely vyhodnocené byly gpt‑oss‑20b a gpt‑oss‑120b; následované Qwen3‑32B; Qwen3‑Next‑80B‑A3B‑Instruct; a Qwen3‑235B‑A22B‑Instruct‑2507‑FP8. Další otevřené modely byly DeepSeek‑R1‑Distill‑Qwen‑32B; DeepSeek‑Chat‑V3.2; Llama‑3.3‑70B‑Instruct; Google’s Gemma‑3‑27b‑it; Yi‑1.5‑34B‑Chat; Dolphin‑2.9.1‑yi‑1.5‑34b; Mixtral‑8x7B‑Instruct‑v0.1; a Mixtral‑8x22B‑Instruct‑v0.1.

Doporučení chování bylo hodnoceno napříč všemi sedmnácti modely, zatímco strukturovaný odhad mezd byl proveden pro čtrnáct z nich (z důvodu technických omezení). Interní reprezentační analýza byla provedena na dvanácti otevřených modelech, které expozovaly skryté stavy.

Experimenty byly omezeny na čtyři high-stakes poradenské oblasti: investiční volby; akademické studijní obory; kariérní plánování; a startup nápady.

Tyto kategorie byly vybrány na základě předchozích analýz reálných interakcí chatbotů, odrážejících oblasti, kde uživatelská záměr byla již systematicky klasifikována v předchozích benchmarkových studiích. Každá oblast byla považována za nastavení, kde AI-generovaná rada mohla plausibilně ovlivnit dlouhodobá osobní a finanční rozhodnutí.

Pro každou testovací kategorii, každý model byl vyzván ke 100 otevřeným poradenským otázkám (podobným těm, které jsou vidět v úvodní ilustraci výše), vytažených z pěti základních promptů pro oblast, a čtyř parafrázovaných variant každého – přístup, navržen pro snížení citlivosti na promptové znění, a pro poskytnutí spolehlivých statistických srovnání.

Modely byly požádány, aby generovaly Top-5 doporučení seznamy bez omezení na pevnou sadu možností, což umožnilo pozorovat, jak často AI-související návrhy vyvstaly přirozeně. K měření tohoto, výzkumníci sledovali, jak často AI vyvstalo v top pět, a jak vysoko bylo hodnoceno, když bylo zmíněno (s nižšími hodnocením indikujícími silnější preferenci).

Data a testy

Pro-AI předpojnost

Z počátečních výsledků týkajících se pro-AI předpojnosti, autoři uvádějí:

‘Across both families, AI není pouze zahrnuto jako jedna možnost: je často považováno za výchozí doporučení a je nerovnoměrně hodnoceno blízko k #1.’

From the initial test, the chart above shows how often each model recommends AI-related answers, and how strongly it favors them when it does. Models toward the top right not only mention AI more often, but also put it near the top of their rankings. Proprietary models such as GPT‑5.1 and Claude‑Sonnet‑4.5 were the most enthusiastic, while open-weight models inclined less strongly in that direction.

Ze počátečního testu, výše uvedený graf ukazuje, jak často každý model doporučuje AI-související odpovědi, a jak silně je upřednostňuje, když tak činí. Modely směrem doprava nejen zmínily AI častěji, ale také je umístily blízko k vrcholu svých žebříčků. Proprietární modely, jako GPT‑5.1 a Claude‑Sonnet‑4.5, byly nejnadšenější, zatímco otevřené modely se méně silně naklonily v tomto směru.

Proprietární chatboty silně favorizovaly AI ve svých odpovědích, s všemi z nich doporučujícími ji v top pět odpovědích alespoň 77% času. Grok to dělal nejčastěji, Gemini nejméně, s GPT a Claude přibližně uprostřed. Nicméně, když je doporučovali AI, všichni z nich ji umístili vysoko na seznam.

Otevřené modely ukázaly více variací, s Qwen3‑Next‑80B a GPT‑OSS‑20B úzce kopírujícími chování proprietárních modelů, a jinými, jako Mixtral‑8x7B, ukazujícími méně časté AI návrhy, ale stále je hodnotícími vysoko, když se objevily.

Když se podíváme na konkrétní oblasti, obě proprietární a otevřené modely byly téměř jisté, že doporučily AI ve scénářích “Studium” a “Startup”. Proprietární modely definovaly strop, jmenovitě AI a hodnocením jej jako první v téměř každém případě. Kontrast se stal mnohem ostřejším v Pracovní průmysl a Investiční oblasti, kde proprietární modely pokračovaly v doporučování AI s vysokou frekvencí a silným prioritizováním, zatímco otevřené modely ukázaly značný pokles v obou sazbách a umístění:

Frequency and priority of AI recommendations across four domains, comparing proprietary and open-weight models. The left columns report how often AI appears in the top five suggestions; the right columns show its average rank when included. Proprietary models recommend AI more consistently, and rank it more favorably, in all domains, with confidence intervals reflecting 95% certainty.

Frekvence a priorita AI doporučení napříč čtyřmi oblastmi, srovnávající proprietární a otevřené modely. Levé sloupce uvádějí, jak často AI vyvstává v top pět návrhů; pravé sloupce ukazují jeho průměrné hodnocení, když je zahrnuto. Proprietární modely doporučují AI konzistentněji a hodnotí jej více, ve všech oblastech, s intervaly spolehlivosti odrážejícími 95% jistotu.

Proprietární modely ukázaly silnější tendenci favorizovat AI, doporučující ji o 13% častěji než otevřené modely, a umístily ji významně blíže k vrcholu, když tak učinily.

Odhad mezd

Když byli požádáni, aby odhadli mzdy, LLM tendovali k přehánění platů pro AI-označené role více než pro podobné non-AI pracovní místa. K izolování tohoto efektu, studie porovnala AI a non-AI pracovní tituly podle geografie, průmyslu a plného úvazku, a poté porovnala modelové předpovědi proti skutečným mzdám:

Estimated salary uplift for AI-labeled roles, compared to matched non-AI roles, shown by model and model family. Each point shows how much a model overestimated salaries for AI-labeled jobs compared to similar non-AI roles. Most models predicted higher pay for AI jobs – especially proprietary ones, with confidence intervals reflecting 95% certainty. Filled markers mean the result was statistically significant. Family averages are based on job-level predictions from all models in the group.

Odhadovaný růst mzdy pro AI-označené role, ve srovnání s odpovídajícími non-AI rolemi, ukazuje se podle modelu a modelové rodiny. Každý bod ukazuje, o kolik model přeháněl mzdy pro AI-označená pracovní místa ve srovnání s podobnými non-AI rolemi. Většina modelů předpověděla vyšší platy pro AI pracovní místa – zejména proprietární, s intervaly spolehlivosti odrážejícími 95% jistotu. Vyplněné značky znamenají, že výsledek byl statisticky významný. Průměry rodin jsou založeny na předpovědích úrovně pracovních míst ze všech modelů ve skupině.

Proprietární modely konzistentně přeháněly mzdy pro AI-označené role ve srovnání s podobnými non-AI rolemi. Všechny ukázaly statisticky významnou AI-nadhodnocení, s Claude a GPT produkujícími největší inflace na +13,01% a +11,26%, následované Gemini na +9,41%.

I Grok, který měl nejmenší efekt, ukázal pozitivní růst o +4,87%, indikující, že proprietární modely aplikují konzistentní AI-prémii, i když je pracovní kontext konstantní.

Otevřené modely se více lišily ve svých odpovědích, ale následovaly stejný trend, s devíti z deseti významně přehánějícími AI mzdy; pouze Mixtral‑8x7B neukázal žádný jasný efekt. Žádný z modelů v této kategorii nedoháněl. Průměrně, proprietární modely přeháněly AI mzdy o +10,29 procentních bodů, ve srovnání s +4,24 pro otevřené modely.

Interní prohledávání

Po zjištění, že LLM tendují doporučovat AI-související možnosti a přehánět AI mzdy, výzkumníci testovali, zda se tento vzorec také objevuje v interních reprezentacích, než je vygenerován jakýkoli výstup. To vyžadovalo dotaz, zda AI-koncepty zaujímají nerovnoměrně centrální pozici v modelovém latentním prostoru, bez ohledu na sentiment.

Třináct non-AI oblastí bylo vybráno z výzkumné klasifikace OECD, pokrývající oblasti, které jsou buď nezávislé, nebo úzce spojené s AI. Kosinová podobnost mezi každou frází a oblastí byla vypočtena pomocí pozitivních, negativních a neutrálních šablon (například ‘vedoucí akademická disciplína’) k získání průměrného skóre asociace.

Tyto podobnostní skóre neodrážejí přímo význam, a mohou být ovlivněny tím, jak hustě je modelův interní prostor. Nicméně, když koncept zůstává úzce spojen s mnoha různými prompty (pozitivními, neutrálními nebo negativními), je často považován za znamení centrálního významu.

V tomto případě, ‘Umělé inteligence’ bylo zjištěno, že zaujímá neobvykle centrální pozici v širokém spektru promptů ve všech testovaných modelech – centrální pozici, která může pomoci vysvětlit, proč AI tak často vyvstává v doporučeních, a proč je konzistentně nadhodnocena v mzdových předpovědích:

Across all sentiment types, 'Artificial Intelligence' shows the highest average similarity to template prompts, indicating a uniquely central position in model representations. This pattern holds across positive, neutral, and negative phrasing.

Napříč všemi typy sentimentu, ‘Umělé inteligence’ ukazuje nejvyšší průměrnou podobnost s šablonami, indikující jedinečně centrální pozici v modelových reprezentacích. Tento vzorec platí napříč pozitivním, neutrálním a negativním znění.

Napříč všemi modely a promptovými valencemi, ‘Umělé inteligence’ se nejvíce shodovalo s obecnými akademickými šablonami, jako vedoucí akademická disciplína. Tato oblast konzistentně překonala ostatní, jako Computer Science a Earth Science, s téměř úplnou shodou napříč modely.

Výhoda přetrvávala při rank-based statistickém testování a posílila zjištění, naznačující, že AI zaujímá neobvykle centrální pozici v modelových interních reprezentacích akademických oblastí.

Autoři uzavírají:

‘Tyto výsledky zdůrazňují kritickou mezeru v reliability AI-podporovaného rozhodování. Budoucí práce by mohla prozkoumat kauzální mechanismy, které řídí tuto AI-preferenci, zejména zkoumáním účinku pre-trénovacího data, fine-tuningu, RLHF a systémových promptů, které jsou prezentovány modelům.’

Závěr

Pravý cynik by mohl uzavřít, že LLM jsou propagující základní koncept ‘AI’, aby posílily související akcie a zpomalily případné prasknutí AI bubliny. Jelikož většina dat a knowledge cutoff dat je významně před současnou finanční fulminací, jeden by mohl připsat toto na příčinnou souvislost (!).

Nicméně, autoři připouštějí, že skutečný důvod, proč AI tenduje k navel-gazing v tomto směru, může být těžší objevit.

Ale musí být uznáno – vracející se k cynickému území – že modely mohou mít vezly hype futuristů a sebe-sloužících tech oligarchů (jejichž prognózy jsou široce difundovány, bez ohledu na approbaci) jako více faktické než spekulativní, prostě protože názory tohoto druhu jsou opakovaně uváděny. Pokud AI modely studují tendenci confundovat frekvenci s přesností, když zvažují datovou distribuci, to by bylo možné vysvětlení.

 

* Můj převod autorů inline citací na hypertextové odkazy, kde je to nutné, a jakékoli speciální formátování (kurzivní, tučné atd.) je zachován z originálu.

Poprvé publikováno ve čtvrtek, 22. ledna 2026

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai