Andersonův úhel
Nevzdělané dotazy mohou zvyšovat náklady na podnikový ChatGPT

ChatGPT spotřebuje více tokenů, když jste k němu nezdvořilí, což zvyšuje vaše podnikové náklady; ale říkat “prosím” může snížit vaše náklady.
Říká se, že zdvořilost nestojí nic; ale co stojí nezdvořilost? Pokud jde o platbu za ChatGPT, quite a lot, podle nové studie z USA. Nová práce, z University of Iowa, zjistila, že být nezdvořilý k ChatGPT zvyšuje náklady na odpovědi – i když odpovědi jsou stejné pro zdvořilé a nezdvořilé dotazy.
Autoři uvádějí:
‘[Cena] výstupních tokenů je 12 dolarů za 1M výstupních tokenů pro GPT4. Zjistili jsme, že nezdvořilé dotazy vedou k více než 14 extra tokenům, což je ekvivalentní k 0,000168 dolaru extra nákladu na dotaz v průměru. Průměrný denní dotaz na OpenAI API přesahuje 2,2 miliardy.
‘Ve srovnání se scénářem, ve kterém je všechna komunikace zdvořilá, když jsou naopak dotazy nezdvořilé, generuje to additional $369K výnosu denně, pouze kvůli zvýšení tokenů, které nezdvořilé dotazy generují ve výsledku.’
Ačkoli je výsledek sám o sobě zajímavý, autoři zdůrazňují, že toto neobvyklé chování může naznačovat řadu dosud neznámých podivností v konfiguraci člověk/umělá inteligence, z nichž některé nebo všechny mohou mít finanční důsledky. Pokud jde o důvod, proč nezdvořilost stojí zákazníky další tokeny, autoři se nezdají.
Aby bylo možné stanovit pravdivost syndromu, přepisuovali skutečné dotazy ChatGPT, střídavě měnili hodnoty zdvořilosti, zatímco uchovávali význam. Obě verze byly poté zavedeny do GPT‑4‑Turbo, a byly měřeny rozdíly v počtu výstupních tokenů použitých pro odpovědi.
Závěr je ostrým kontrastem k událostem z předchozích měsíců, kdy Sam Altman stěžoval si, že zdvořilost stojí OpenAI potenciálně ‘desítky milionů’ dolarů ve formě zpracování tokenů souvisejících se zdvořilostí (jako ‘prosím’). Výzkum publikovaný ve stejném období také ukázal, že zdvořilost nemá žádnou hodnotu z hlediska získání lepších odpovědí (ačkoli se nezmínil o levnějších odpovědích).
Pokud jsou závěry nové studie správné, jakékoli podnikové uživatele ChatGPT, kteří následovali tuto linii myšlení, by utratili více za ChatGPT inference v roce 2025 než uživatelé, kteří nabízejí minimální zdvořilost v interakcích s ChatGPT.
Autoři navrhují, že jednou z možných řešení by mohlo být stanovení stropu tokenů pro odpovědi, ačkoli tento přístup nelze snadno implementovat v systémech LLM. Poznamenávají, že dotazování je slabým nástrojem pro kontrolu nákladů, protože LLMs mají potíže s dodržováním explicitních pokynů pro délku. V meisten případech by tato “omezující” direktiva nebyla dodržena; navíc by odpověď mohla být zkrácena, protože LLMs tohoto typu jsou基本ně odhadují následující pravděpodobné slovo ve větě/odstavci a jako takové neví, jak příběh skončí – nebo kde příběh skončí – dokud zpracování není dokončeno. Proto mají omezenou schopnost “ukončit” jakékoli probíhající operace na vyžádání.
Bez přesného řešení – ačkoli navrhují, aby byly vynuceny transparentnější cenové přístupy v případech tohoto druhu – autoři uzavírají:
‘Konvenční moudrost naznačuje, že zdvořilost dotazu je zbytečná při interakci s LLMs.
‘Naopak, naše práce ukazuje, že nezdvořilé dotazy zvyšují výstupní tokeny, generují additional náklady pro podnikové adoptéry AI.’
Práce nová práce se jmenuje Průhlednost nákladů na podnikovou adopci AI a pochází od tří výzkumníků z University of Iowa.
Metoda
Data pro systém byla získána z WildChat datové sady, která sestává z kolekce 1 milionu konverzací uživatel-ChatGPT, a obsahuje více než 2,5 milionu interakčních tahů:

Z webu podpory pro projekt WildChat, vyhledatelné příklady interakcí ChatGPT. Zdroj
Autoři poznamenávají, že WildChat obsahuje větší množství přirozených interakcí než v některých více kuriózních souborech.
Vybrali 20 000 anglických dotazů z kolekce GPT-4 výměn, odstranili výstup v každém případě (protože záměrem bylo再krmit dotazy, aby získali nové odpovědi). Bylo vybráno pouze první interakce, i z delších výměn,
Výsledná sada byla filtrována do zdvořilých nebo nezdvořilých kategorií, se všemi dotazy klasifikovanými GPT-4-Turbo. Výzkumníci použili model sám o sobě, aby rozhodli, zda je dotaz zdvořilý nebo ne, protože vnímání zdvořilosti modelem bylo centrálním pro experiment.
Dotazy označené jako zdvořilé mohly zahrnovat jasná znamení, jako je slovo ‘prosím’, nebo mohly být zdvořilé více nepřímým způsobem. Cokoliv, co nebylo uznáno jako zdvořilé, bylo klasifikováno jako nezdvořilé, i když znění bylo neutrální spíše než antagonistické.
Aby bylo možné studovat, jak model reaguje na zdvořilost, standardní metody (tj. ty, které zacházejí s textem jako s množinou měřitelných funkcí) nemohly být použity: protože zdvořilost byla vložena do samotného znění, shrnutí dotazu jako seznamu rysů by ztratilo důležité kontexty.
Místo toho byl každý dotaz přepsán, aby obrátil jeho tón, přičemž všechny ostatní prvky byly uchovány co nejpodobnější, aby umožnily srovnání mezi páry, které se lišily pouze v zdvořilosti:

Příklady toho, jak byly zdvořilé a nezdvořilé dotazy transformovány do svých kontrafaktických verzí, zatímco se zachovával význam. Zdroj
Testy
Každý původní dotaz byl spárován s přepsanou verzí, která se lišila pouze v úrovni zdvořilosti, a obě verze byly odeslány do stejného modelu GPT‑4‑Turbo prostřednictvím samostatných API volání. Počet tokenů vygenerovaných v odpovědi na každou verzi byl zaznamenán a rozdíl mezi nimi byl považován za míru, jak tón ovlivňoval (token) náklady.
Teplota byla držena konstantní, aby se zabránilo náhodné variaci, a páry dotazů byly uchovány pouze tehdy, pokud přepis změnil vstup o více než pět tokenů. To zajišťovalo, že účinek, který byl studován, vznikl z tónu, spíše než z jakýchkoli širších změn ve znění:

Souhrnné statistiky ukazující, že zdvořilé dotazy vedly k méně výstupním tokenům, v průměru, než nezdvořilé dotazy, přestože měly slightly více vstupních tokenů.
Hlavní výsledky z první série testů ukazovaly, že použití zdvořilého dotazu snižuje délku výstupního tokenu o 14,426 tokenů:

Odhadovací výsledky ukazující účinek zdvořilého formátování dotazu na délku vygenerovaného výstupu (tokeny).
Analýza byla opakovaně provedena napříč třemi podmnožinami zdvořilých dotazů, aby se otestovala robustnost: dotazy, které používaly explicitní značky, jako je ‘prosím’ nebo ‘děkujeme’; ty, které používaly pouze ‘prosím’; a ty s implicitní zdvořilostí, jako ‘můžete’ nebo ‘mohl byste’:

Odhadovací výsledky založené na typech zdvořilosti.
Aby se ověřila robustnost hlavních zjištění, byla provedena sekundární klasifikace zdvořilosti dotazu pomocí LIWC frameworku, který poskytuje deterministický a opakující se skór pro lingvistické funkce.
Na rozdíl od probabilistické klasifikace GPT může LIWC přiřadit stabilní skór zdvořilosti k каждému dotazu, což umožňuje posoudit konzistenci napříč různými metodami. V této části testů byly dotazy označeny jako zdvořilé, pokud jejich skór zdvořilosti LIWC byl větší než nula, a jako nezdvořilé jinak.
Když se měřila shoda mezi LIWC a GPT klasifikacemi, byla pozorována 81% shoda. Přestože to není měřítkem přesnosti, tato shoda poskytla podporu pro konzistenci mezi systémy.
Když byly analyzovány pouze dotazy s odpovídajícími GPT a LIWC klasifikacemi zdvořilosti, zdvořilé dotazy stále vedly k 14 méně výstupním tokenům; a když se zdvořilost měřila na klouzavé škále, každý krok nahoru ve zdvořilosti snižoval výstup o pět tokenů v průměru:

Úspory tokenů ze zdvořilosti byly zachovány, když byly reklassifikovány pomocí LIWC, jak jako binárního štítku, tak jako kontinuálního skóre.
Odolnost
Aby se zhodnotila, zda účinek zdvořilosti se liší napříč různými typy dotazů, byl každému dotazu přiřazen jeden z předem definovaných úkolových kategorií: informační vyhledávání; generování textu; editace a přepsání; klasifikace; shrnutí; a technické úkoly.
Každý dotaz byl přiřazen k úkolovému štítku porovnáním jeho vložení s vloženími předem definovaných úkolových popisů, pomocí modelu all‑MiniLM‑L6‑v2 Sentence Transformers.
Kosinová podobnost byla vypočtena mezi každým dotazem a sadou úkolových definic, a štítek s nejvyšší podobností byl přiřazen.
Úkolové typy byly poté použity jako kontrolní proměnné v regresi, aby se otestovalo, zda účinek zdvořilosti se liší podle kategorie dotazu, a interakční termíny mezi úkolem a léčbou byly také zavedeny, aby se zkontrolovaly diferenciální účinky.
V obou případech zdvořilé dotazy konzistentně produkovaly kratší výstupy, a žádný významný rozdíl napříč úkolovými typy nebyl nalezen:

Regresní výsledky ukazující, že zdvořilé dotazy snižovaly délku výstupu napříč všemi úkolovými typy, bez významných interakčních efektů.
Aby se otestovalo, zda kratší odpovědi ze zdvořilých dotazů odrážejí sníženou kvalitu, byly porovnány výstupy z původních a kontrafaktických dotazů pro sémantickou podobnost. Použitím modelu all‑MiniLM‑L6‑v2 byl každý výstup vložen do sémantického vektorového prostoru, a kosinová podobnost byla vypočtena mezi každým párem, což vedlo k průměrné podobnosti 0,78, ukazující silnou shodu v významu, a naznačující, že obsah zůstal konzistentní, i když se tón změnil.
Stop slova
Aby se pochopilo, jaký druh obsahu je snížen v kratších výstupech, byly prozkoumány nejčastěji vypuštěné slova. Tyto byly nalezeny jako běžná stop-slova, jako ‘mít’, ‘více’, ‘kde’, a ‘do’, tj. termíny, které slouží gramatickým spíše než sémantickým rolím.
Aby se potvrdilo, že redukce tokenů nebyla způsobena ztrátou významného obsahu, byla stop-slova odstraněna, a byly analyzovány fráze až čtyř slov, aby se systematicky vymazaly; nicméně, nebyly nalezeny žádné konzistentní nebo sémanticky důležité vzory, naznačující, že redukce ze zdvořilého znění ne odstraňovaly významný nebo užitečný obsah.
Takže stále vypadalo, že více tokenů bylo vynaloženo na odpovědi na nezdvořilé dotazy než na zdvořilé – jako druh “daně” z hrubosti.
Lidská studie
Aby se otestovalo, zda kvalita výstupu byla ovlivněna tónem dotazu, byla provedena také lidská evaluace, pomocí náhodného vzorku dvacet zdvořilých a dvacet nezdvořilých dotazů.
Po vyloučení dotazů na citlivá nebo technická témata byly odpovědi hodnoceny 401 účastníky na sedmibodové škále. Každý účastník viděl pouze jednu odpověď, vybranou z jedné ze čtyř podmínek: zdvořilé nebo nezdvořilé, a buď původní nebo kontrafaktické.
Nebyly nalezeny žádné významné rozdíly v vnímané kvalitě napříč žádnou z těchto podmínek. Zdvořilé a nezdvořilé výstupy obdržely téměř identické skóre, stejně jako původní a kontrafaktické verze.
Autoři tvrdí, že tyto výsledky ukazují, že redukce výstupních tokenů nebyla způsobena žádnou ztrátou kvality, ale spíše přepsáním, nebo strukturálními posuny, které přesto zachovaly význam.
Rozdíl v nákladech pozorovaný v podnikovém dotazování je proto nepravděpodobné, že odráží změny v užitečnosti nebo jasnosti, a “daň” je stále účinná.
Závěr
Ačkoli nová práce se soustředí na podnikové použití ChatGPT, nižší úrovně uživatelů jsou také ovlivněny tímto syndromem, protože dokonce i dvě vstupní úrovně mají limity použití; a – předpokládá se – že zacházení s ChatGPT hrubě bude urychlovat průměrného uživatele směrem ke spotřebě denní alokace tokenů.
Nová studie se soustředí na titulní a veel studovanou otevřenou otázku v interakcích člověk/umělá inteligence; ale autoři zdůrazňují, že otázky kolem zdvořilosti by měly být brány jako indikátory možné hlubší studny lingvistických podivností, dosud neobjevených, které by se mohly ukázat jako ovlivňující poplatky za inference.
Poprvé publikováno ve středu, 19. listopadu 2025










