Погляд Anderson
Нові дослідження ставлять під сумнів «токенну» оплату за чати з штучним інтелектом

Нові дослідження показують, що спосіб оплати послуг штучного інтелекту за токенами ховає від користувачів справжню вартість. Постачальники можуть тихо збільшувати ціни, фальшуючи кількість токенів або вставляючи приховані кроки. Деякі системи виконують додаткові процеси, які не впливають на результат, але все одно з’являються в рахунку. Було запропоновано аудиторські інструменти, але без справжнього нагляду користувачі залишаються платити за більше, ніж вони розуміють.
У майже всіх випадках те, за що ми, як споживачі, платимо за інтерфейси чату, що працюють на основі штучного інтелекту, таких як ChatGPT-4o, зараз вимірюється в токенах: невидимих одиницях тексту, які залишаються непоміченими під час використання, але підраховуються з точністю для оплати; і хоча кожна операція оплачується за кількість оброблених токенів, користувач не має прямого способу підтвердити кількість токенів.
Незважаючи на нашу (найкраще) неідеальне розуміння того, що ми отримуємо за нашу куплену «токенну» одиницю, токенна оплата стала стандартним підходом серед постачальників, спираючись на те, що може виявитися хитрим припущенням про довіру.
Токенні слова
Токен не зовсім те саме, що і слово, хоча часто грає подібну роль, і більшість постачальників використовують термін «токен» для опису малих одиниць тексту, таких як слова, знаки пунктуації або фрагменти слів. Наприклад, слово ‘недовірливе’ може бути підраховано як один токен однією системою, тоді як інша система може розділити його на не, дові і рливе, з кожним фрагментом, що збільшує вартість.
Ця система застосовується як до тексту, введеного користувачем, так і до відповіді моделі, з ціною, заснованою на загальній кількості цих одиниць.
Складність полягає в тому, що користувачі не бачать цього процесу. Більшість інтерфейсів не показують кількість токенів під час розмови, а спосіб розрахунку токенів важко відтворити. Навіть якщо кількість токенів показується після відповіді, це вже пізно сказати, чи була вона справедливою, створюючи розбіжність між тим, що бачить користувач, і тим, за що він платить.
Недавні дослідження вказують на глибші проблеми: одне дослідження показує, як постачальники можуть завищувати ціни без порушення правил, просто завищуючи кількість токенів у спосіб, який користувач не може побачити; інше розкриває розбіжність між тим, що відображається інтерфейсами, і тим, що насправді оплачується, залишаючи користувачів з ілюзією ефективності, де її може не бути; і третє розкриває, як моделі регулярно генерують внутрішні кроки розуміння, які ніколи не показуються користувачеві, але все одно з’являються в рахунку.
Результати зображують систему, яка видима точна, з точними числами, які припускають ясність, але чия підлягаюча логіка залишається прихованою. Чи це за допомогою конструкції, чи структуальної помилки, результат однаковий: користувачі платять за більше, ніж вони можуть бачити, і часто більше, ніж вони очікують.
Дешевше за десятку?
У першому з цих робіт – під назвою Чи ваша модель завищує ціни? Токенізація, прозорість і стимули, від чотирьох дослідників Інституту програмних систем імені Макса Планка – автори стверджують, що ризики токенної оплати виходять за межі непрозорості, вказуючи на вбудований стимул для постачальників завищувати кількість токенів:
‘Саме ядро проблеми полягає в тому, що токенізація рядка не унікальна. Наприклад, розгляньте, коли користувач надсилає запит “Де відбувається наступна NeurIPS?” постачальнику, постачальник вводить його в модель, і модель генерує вивід “|Сан|Дієго|”, що складається з двох токенів.
‘Поскольку користувач не знає про генеративний процес, самозахоплюючий постачальник має можливість неправильно звітувати про токенізацію виводу користувачеві, не змінюючи при цьому підлягаючий рядок. Наприклад, постачальник міг би просто поділити токенізацію “|С|а|н| |Д|і|е|г|о|” і завищити ціну для дев’яти токенів замість двох!’
Стаття пропонує евристичний розрахунок, здатний виконувати такий нечесний розрахунок без зміни видимого виводу, і без порушення правдоподібності під типовими умовами декодування. Використовуючи моделі з серій LLaMA, Mistral і Gemma, за допомогою реальних запитів, метод досягає вимірюваних завищень без появи аномалій:

Токенне завищення за допомогою «правдоподібного неправильного звітування». Кожна панель показує відсоток завищених токенів, що результатуються застосуванням алгоритму 1 до виводів 400 LMSYS-пromptів під різними параметрами вибірки (m і p). Усі виводи були згенеровані при температурі 1,3, з п’ятьма повтореннями для кожного параметру для розрахунку інтервалів довіри 90%. Джерело: https://arxiv.org/pdf/2505.21627
Для вирішення проблеми дослідники пропонують оплату на основі кількості символів замість токенів, стверджуючи, що це єдиний підхід, який дає постачальникам підставу для чесного звітування, і стверджуючи, що якщо мета полягає в справедливій ціні, то зв’язування вартості з видимими символами, а не з прихованими процесами, є єдиною опцією, яка витримує перевірку. Оплата на основі символів, як стверджують дослідники, усунула б мотив для неправильного звітування, а також винагороджувала б коротші, більш ефективні виводи.
Тут є кілька додаткових міркувань, однак (у більшості випадків визнаних авторами). По-перше, запропонований характер-орієнтований схеми вводить додаткову бізнес-логіку, яка може сприяти постачальнику над споживачем:
‘[Постачальник, який ніколи не неправильно звітує, має чіткий стимул генерувати найкоротший можливий вивідний токеновий ряд, і поліпшити поточні алгоритми токенізації, такі як BPE, щоб вони стиснули вивідний токеновий ряд якомога більше’
Оптимістичний мотив тут полягає в тому, що постачальник таким чином заохочується виробляти лаконічні та більш значущі виводи. На практиці, однак, є очевидні менш чесні способи для постачальника зменшити кількість тексту.
По-друге, автори стверджують, що можна припустити, що компанії, ймовірно, потребуватимуть законодавчих заходів, щоб перейти від архаїчної токенної системи до більш прозорої, текстової системи оплати. В майбутньому стартап-інсургент може вирішити відрізнити свій продукт, запустивши його з цією моделлю ціноутворення; але будь-хто з真正нім конкурентним продуктом (і дією на нижчому рівні, ніж EEE категорія) не заохочується робити це.
По-третє, алгоритми, такі як запропоновані авторами, будуть мати власну обчислювальну вартість; якщо витрати на розрахунок «завишення» перевищують потенційну вигоду, схема явно не матиме жодної заслуги. Однак дослідники підкреслюють, що їхній запропонований алгоритм є ефективним і економічним.
Автори надають код для своїх теорій на GitHub.
Перемикач
Друга праця – під назвою Невидимі токени, видимі рахунки: Терміново потрібен аудит прихованих операцій у непрозорих LLM-сервісах, від дослідників Університету Меріленду і Берклі – стверджує, що несумісні стимули в комерційних мовних моделях API не обмежуються лише токенним розділенням, але поширюються на цілі класи прихованих операцій.
До них належать внутрішні виклики моделі, спекулятивне розуміння, використання інструментів і взаємодія між агентами – все це може бути оплачено користувачеві без видимості чи можливості оскарження.

Ціни і прозорість розуміння LLM API серед провідних постачальників. Усі перелічені послуги оплачують користувачам приховані внутрішні токени розуміння, і жодна з них не робить ці токени видимими під час виконання. Вартість значно відрізняється, з моделлю OpenAI o1-pro, яка оплачує в десять разів більше за мільйон токенів, ніж Claude Opus 4 або Gemini 2.5 Pro, незважаючи на однакову непрозорість. Джерело: https://www.arxiv.org/pdf/2505.18471
На відміну від традиційної оплати, де кількість і якість послуг можна перевірити, автори стверджують, що сучасні платформи LLM діють під структурною непрозорістю: користувачі оплачують токени і використання API, але не мають можливості підтвердити, що ці метрики відображають реальну або необхідну роботу.
Стаття ідентифікує два ключових види маніпуляцій: завишення кількості, коли кількість токенів або викликів збільшується без користі для користувача; і пониження якості, коли нижчі моделі або інструменти замінюються потай, замість преміум-компонентів:
‘У розумінні LLM API постачальники часто підтримують кілька варіантів однієї сім’ї моделей, що відрізняються за місткістю, навчальними даними або стратегією оптимізації (наприклад, ChatGPT o1, o3). Пониження моделі означає потайну заміну нижчих моделей, які можуть вводити розбіжність між очікуваною і фактичною якістю послуги.
‘Наприклад, запит може бути оброблений меншою моделлю, тоді як оплата залишається незмінною. Ця практика важко виявити для користувачів, оскільки кінцевий答案 все одно може виглядати правдоподібним для багатьох завдань.’
Стаття документує випадки, коли понад дев’яносто відсотків оплачених токенів ніколи не показувалися користувачам, а внутрішнє розуміння завищувало використання токенів у кілька разів. Оправдане чи ні, непрозорість цих кроків позбавляє користувачів будь-якої підстави для оцінки їхньої значимості чи легітимності.
У агентських системах непрозорість збільшується, оскільки внутрішні обміни між штучними інтелектами можуть кожен спричиняти витрати без суттєвого впливу на кінцевий результат:
‘Поза внутрішнім розумінням агенти спілкуються, обмінюючись запитами, резюме і інструкціями з плануванням. Кожен агент одночасно інтерпретує вхідні дані від інших і генерує вивід для керування робочим процесом. Ці міжагентські повідомлення можуть споживати суттєву кількість токенів, які часто не показуються кінцевому користувачеві.
‘Всі токени, витрачені під час координації агентів, включаючи згенеровані запити, відповіді та інструментальні інструкції, зазвичай не показуються користувачеві. Коли агенти самі використовують моделі розуміння, оплата стає ще більш непрозорою’
Для вирішення цих проблем автори пропонують шарований аудиторський каркас, що включає криптографічні доведення внутрішньої діяльності, верифіковані маркери ідентифікації моделі або інструменту, і незалежний нагляд. Основна проблема, однак, полягає в структурі: поточні схеми оплати LLM залежать від тривалої асиметрії інформації, залишаючи користувачів вразливими для витрат, які вони не можуть перевірити чи розбити.
Підрахунок невидимого
Остання робота, від дослідників Університету Меріленду, переформулює проблему оплати не як питання про зловживання чи неправильне звітування, а як питання структури. Стаття – під назвоюCoIn: Підрахунок невидимих токенів розуміння в комерційних непрозорих LLM API, і від десяти дослідників Університету Меріленду – спостерігає, що більшість комерційних сервісів LLM зараз ховають проміжне розуміння, яке внесло свій внесок у кінцеву відповідь моделі, але все одно оплачують ці токени.
Стаття стверджує, що це створює невидиму поверхню оплати, де цілі послідовності можуть бути сфабриковані, введені або завищені без виявлення:
‘[Це] невидимість дозволяє постачальникам неправильно звітувати про кількість токенів або вводити низьковартісні, сфабриковані токени розуміння для штучного завищення кількості токенів. Ми називаємо цю практику завишенням кількості токенів.
‘Наприклад, один високоефективний запуск моделі ARC-AGI за моделлю OpenAI o3 спожив 111 мільйонів токенів, вартістю 66 772,3 долари. При цьому масштабі навіть малі маніпуляції можуть привести до суттєвого фінансового впливу.
‘Така інформаційна асиметрія дозволяє компаніям штучного інтелекту суттєво завищувати ціни для користувачів, тим самим підірвавши їхні інтереси.’
Для протидії цій асиметрії автори пропонують CoIn, систему аудиту третіх сторін, призначену для верифікації прихованих токенів без розкриття їхнього змісту, і яка використовує хешовані відбитки і семантичні перевірки для виявлення ознак завищення.

Огляд системи аудиту CoIn для непрозорих комерційних LLM. Панель А показує, як токени розуміння вкладені в хеш-дерево для верифікації кількості токенів без розкриття їхнього змісту. Панель Б ілюструє семантичні перевірки валідності, де легкі нейронні мережі порівнюють блоки розуміння з кінцевою відповіддю. Джерело: https://arxiv.org/pdf/2505.13778
Один компонент верифікує кількість токенів криптографічно за допомогою хеш-дерева; інший оцінює значимість прихованих даних, порівнюючи їх з відповіддю. Це дозволяє аудиторам виявити заповнення або нерелевантність – ознаки того, що токени вводяться лише для завищення рахунку.
Коли система була розгорнута в тестах, CoIn досягла успішного виявлення майже 95% для деяких форм завищення, з мінімальним розкриттям підлягаючих даних. Хоча система все ще залежить від добровільної співпраці постачальників і має обмежену розв’язність у крайніх випадках, її основна ідея очевидна: сам архітектурний каркас поточної оплати LLM припускає чесність, яку не можна перевірити.
Висновок
Окрім переваги отримання оплати до платежу від користувачів, система оплати (така як «базз» у CivitAI) допомагає абстрагувати користувачів від справжньої вартості валюти, яку вони витрачають, або товару, який вони купують. Аналогічно, надання постачальнику свободи визначати свої власні одиниці вимірювання ще більше залишає споживача в невіданні про те, що вони фактично витрачають у реальних грошах.
Як і відсутність годинників у Лас-Вегасі, заходи такого типу часто спрямовані на те, щоб зробити споживача безтурботним або байдужим до витрат.
Малозрозумілий токен, який можна спожити і визначити багатьма способами, можливо, не підходить як одиниця вимірювання для споживання LLM – не в останню чергу через те, що він може вартувати багато разів більше токенів для розрахунку гіршого результату LLM у неанглійській мові порівняно з англійською сесією.
Однак оплата на основі символів, як запропоновано дослідниками з Макса Планка, ймовірно, сприятиме більш лаконічним мовам і покарать природньо розговорним мовам. Оскільки візуальні індикатори, такі як депреціюючий токен-лічильник, ймовірно, зроблять нас трохи більш марнотратними у наших сесіях LLM, здається, малоймовірно, що такі корисні доповнення GUI з’являться в найближчому майбутньому – принаймні без законодавчих дій.
* Виділення авторів. Моє перетворення внутрішніх посилань авторів на гіперпосилання.
Перша публікація четверга, 29 травня 2025 року












