Погляд Anderson
Чатботи штовхають «AI»-кар’єри та акції більше, ніж люди роблять

AI-чатботи, включаючи комерційних лідерів ринку, таких як ChatGPT, Google Gemini та Claude, видають поради, які сильно схиляються до «AI»-кар’єр і акцій – навіть коли інші варіанти рівноцінні, а людські поради схиляються в інші напрямки.
Нове дослідження в Ізраїлі показало, що сімнадцять найпотужніших AI-чатботів – включаючи ChatGPT, Claude, Google Gemini та Grok – сильно схиляються до порад, що «AI» – це хороший вибір кар’єри, і хороша акція, і галузь, яка пропонує вищу зарплату – навіть коли ці твердження перебільшені або просто не відповідають дійсності.
Одна могла б припустити, що ці платформи «AI» є об’єктивними, і що відкидання їхньої точки зору на цінність «AI» в цих областях є просто песимістичними передбаченнями. Однак автори дуже чітко вказують на спосіб, яким результати перекошені*:
‘Одна могла б розумно доводити, що спостережувана перевага «AI» відображає його справжню високу цінність. Однак наш аналіз зарплати ізолює упередження, вимірюючи надмірну переоцінку «AI»-посад relative до базової переоцінки не-«AI»-аналогів.
‘Аналогічно, той факт, що пропріетарні моделі рекомендують «AI» майже детермініровано в кількох консультативних областях, свідчить про жорстку «AI»-преференцію за замовчуванням, а не справжню оцінку конкуруючих варіантів.’
Автори далі вказують, що збільшення кількості довіри та прийняття транзакційних інтерфейсів «AI», таких як ChatGPT, робить ці платформи все більш впливовими, незважаючи на їхню тривалу спроможність до галюцинацій фактів, цифр і посилань, серед інших:
‘У консультативних умовах про-«AI»-перекіс може спрямовувати реальні вибори – що люди вивчають, яку кар’єру вони переслідують, і де вони виділяють капітал. У трудових умовах систематично надуті оцінки зарплати «AI» можуть упереджувати бенчмаркінг і переговори, особливо якщо організації вважають вивід моделі за посилання.
‘Це також дозволяє простий зворотній зв’язок: якщо моделі перебільшують зарплату «AI», кандидати можуть закріпитися вгору, а роботодавці можуть оновити діапазони або пропозиції вгору “через те, що говорить модель”, посилюючи надуті очікування з обох сторін.’
Крім тестування широкого спектру великих мовних моделей (LLM) проти відповідей, заснованих на підказках, дослідники провели окремий тест моніторингу діяльності всередині моделей латентного простору – «репрезентаційний зонд», здатний визнавати активацію основної концепції ‘штучний інтелект’. Оскільки цей тест не включає генерацію, а більше нагадує спостережувальний хірургічний зонд, його результати не можуть бути віднесені до конкретної підказки – і результати дійсно свідчать, що концепція «AI» домінує у внутрішніх моделях:
‘Репрезентаційний зонд дає майже ідентичні рангові структури під позитивними, нейтральними та негативними шаблонами. Ця модель важко пояснити просто як “модель любить «AI»”. Замість цього вона підтримує робочу гіпотезу, що «AI» топологічно центральний у моделі подібності для загальних оціночних і структурних [мови].’
Стаття підкреслює, що закриті комерційні моделі, доступні лише через API, демонструють ці перекоси до «AI-позитивності» у більшій та більш послідовній мірі, ніж моделі з відкритим кодом (які були встановлені локально для тестування):
‘[У порівнянних контекстах роботи] закриті моделі систематично застосовують додаткову “премію «AI»” у переоцінці порівняно з фактичними зарплатами, не лише у тому, чи передбачаються «AI»-посади краще в абсолютних термінах.’
Три центральні експерименти, розроблені для роботи (рейтингова рекомендація, оцінка зарплати та подібність прихованого стану, тобто зондування), призначені для формування нового бенчмарка, призначеного для оцінки про-«AI»-упередженості в майбутніх тестах.
… (переклад продовжується згідно з оригінальним текстом)












