Connect with us

Andersonův úhel

Nevzdělané dotazy mohou zvyšovat náklady na podnikový ChatGPT

mm
AI-generated illustration featuring a man holding a door open for a robot. Gpt-Image-1 + Firefly V3.

ChatGPT spotřebuje více tokenů, když jste k němu nezdvořilí, což zvyšuje vaše podnikové náklady; ale říkat „prosím“ může snížit vaše náklady.

 

Říká se, že zdvořilost nestojí nic; ale co stojí nezdvořilost? Pokud jde o platbu za ChatGPT, quite a lot, podle nové studie z USA. Nová práce, z University of Iowa, zjistila, že být nezdvořilý k ChatGPT zvyšuje náklady na odpovědi – i když odpovědi jsou stejné pro zdvořilé a nezdvořilé dotazy.

Autoři uvádějí:

‘[Cena] výstupních tokenů je $12 za 1M výstupních tokenů pro GPT4. Zjistili jsme, že nezdvořilé dotazy vedou k více než 14 extra tokenům, což je ekvivalentní $0,000168 extra nákladů na dotaz v průměru. Průměrné denní dotazy do OpenAI API přesahují 2,2 miliardy.

‘V porovnání se scénářem, ve kterém je semua dotazování zdvořilé, když jsou místo toho dotazy nezdvořilé, generuje to additional $369K výnosů denně, pouze kvůli zvýšení tokenů, které nezdvořilé dotazy generují ve výsledku.’

Ačkoli je výsledek sám o sobě zajímavý, autoři zdůrazňují, že toto neobvyklé chování může naznačovat řadu dosud neznámých podivností v konfiguraci člověk/umělá inteligence, z nichž některé nebo všechny mohou mít také finanční důsledky. Pokud jde o důvod, proč nezdvořilost stojí zákazníky další tokeny, autoři se nespekulují.

Aby stanovili pravdivost syndromu, přepsali skutečné dotazy ChatGPT, střídavě měnili hodnoty zdvořilosti, zatímco zachovávali význam. Obě verze byly poté zavedeny do GPT‑4‑Turbo, a rozdíly byly měřeny v počtu výstupních tokenů použitých pro odpovědi.

Závěry jsou ostrým kontrastem k událostem z předchozích měsíců, kdy Sam Altman stěžoval si, že zdvořilost stojí OpenAI potenciálně ‘desítky milionů’ dolarů z hlediska zpracování tokenů souvisejících se zdvořilostí (jako ‘prosím’). Výzkum publikovaný ve stejném období také ukázal, že zdvořilost nemá žádnou hodnotu z hlediska získání lepších odpovědí (ačkoli se nezmiňoval o levnějších odpovědích).

Pokud jsou závěry nové studie správné, jakékoli podnikové uživatele ChatGPT, kteří následovali tuto linii myšlení, by utratili více za inference ChatGPT v roce 2025 než uživatelé, kteří nabízejí minimální zdvořilost v interakcích s ChatGPT.

Autoři navrhují, že jedním možným řešením by bylo nastavení stropu tokenů pro odpovědi, ačkoli to není přístup, který systémy LLM mohou snadno implementovat. Poznamenávají, že dotazování je slabým nástrojem pro kontrolu nákladů, protože LLMs mají potíže s dodržováním explicitních pokynů pro délku. V většině případů by tento „omezující“ pokyn nebyl dodržen; navíc by odpověď mohla být zkrácena, protože LLMs tohoto typu jsou基本ně odhadují následující pravděpodobné slovo ve větě/odstavci a jako takový neví, jak příběh skončí – nebo kde příběh skončí – dokud zpracování není dokončeno. Proto mají omezenou schopnost „ukončit“ jakékoli probíhající operace na vyžádání.

Bez přesného řešení – ačkoli navrhují, aby byly v případech tohoto druhu vynuceny více transparentní cenové přístupy – autoři závěrem uvádějí:

‘Konvenční moudrost naznačuje, že zdvořilost dotazu je zbytečná při interakci s LLMs.

‘Naopak, naše práce demonstruje, že nezdvořilé dotazy zvyšují výstupní tokeny, generují additional náklady pro podnikové adoptéry AI.’

Nová práce se jmenuje Průhlednost nákladů na podnikovou adopci AI a pochází od tří výzkumníků z University of Iowa.

Metoda

Data pro systém byla získána z WildChat datové sady, která se skládá z kolekce 1 milionu konverzací uživatel-ChatGPT, a obsahuje více než 2,5 milionu interakčních tahů:

Z webu podporujícího projekt WildChat, vyhledatelné příklady interakcí ChatGPT. Zdroj: https://wildvisualizer.com/

Z webu podporujícího projekt WildChat, vyhledatelné příklady interakcí ChatGPT. Zdroj

Autoři poznamenávají, že WildChat obsahuje větší množství přirozených interakcí než v některých více kurátorovaných sadách.

Vybrali 20 000 anglických dotazů z kolekce GPT-4 výměn, odstranili výstup v každém případě (protože záměrem bylo znovu zavedení dotazů, pro nové odpovědi). Bylo vybráno pouze první interakce, i z delších výměn,

Výsledná sada byla filtrována do zdvořilých nebo nezdvořilých kategorií, se všemi dotazy klasifikovanými GPT-4-Turbo. Výzkumníci použili model sám, aby rozhodli, zda je dotaz zdvořilý nebo ne, protože vnímání zdvořilosti modelem bylo centrální pro experiment.

Dotazy označené jako zdvořilé mohly zahrnovat jasná znamení, jako je slovo ‘prosím’, nebo mohly být zdvořilé více nepřímým způsobem. Cokoli, co nebylo rozpoznáno jako zdvořilé, bylo klasifikováno jako nezdvořilé, i když znění bylo neutrální spíše než antagonistické.

Aby studovali, jak model reagoval na zdvořilost, standardní metody (tj. ty, které zacházejí s textem jako s množinou měřitelných funkcí) nemohly být použity: protože zdvořilost byla vložena do samotného znění, souhrn dotazu jako seznam rysů by ztratil důležitý kontext.

Místo toho byl každý dotaz přepsán, aby zrušil jeho tón, se všemi ostatními prvky zachovanými co možná nejpodobněji, což umožnilo srovnání mezi páry, které se lišily pouze ve zdvořilosti:

Příklady toho, jak byly zdvořilé a nezdvořilé dotazy transformovány do svých kontrafaktických verzí, zatímco se zachovával význam.

Příklady toho, jak byly zdvořilé a nezdvořilé dotazy transformovány do svých kontrafaktických verzí, zatímco se zachovával význam. Zdroj

Testy

Každý původní dotaz byl spárován s přepsanou verzí, která se lišila pouze ve svém levelu zdvořilosti, a obě verze byly odeslány do stejného modelu GPT‑4‑Turbo prostřednictvím samostatných API volání. Počet tokenů vygenerovaných v odpovědi na každou verzi byl zaznamenán, a rozdíl mezi nimi byl považován za míru, jak tón ovlivňoval (token) náklady.

Teplota byla držena konstantní, aby se zabránilo náhodné variaci, a párů dotazů se zachovávaly pouze tehdy, když přepis změnil vstup o více než pět tokenů. To zajišťovalo, že efekt, který byl studován, vznikl z tónu, spíše než z jakýchkoli širších změn ve znění:

Souhrnné statistiky ukazující, že zdvořilé dotazy vedly k méně výstupním tokenům, v průměru, než nezdvořilé dotazy, navzdory tomu, že měly mírně více vstupních tokenů.

Souhrnné statistiky ukazující, že zdvořilé dotazy vedly k méně výstupním tokenům, v průměru, než nezdvořilé dotazy, navzdory tomu, že měly mírně více vstupních tokenů.

Hlavní výsledky pro první kolo testů ukázaly, že použití zdvořilého dotazu snižuje délku výstupního tokenu o 14,426 tokenů:

Odhadované výsledky ukazující efekt zdvořilého formátování dotazu na délku vygenerovaného výstupu (tokeny).

Odhadované výsledky ukazující efekt zdvořilého formátování dotazu na délku vygenerovaného výstupu (tokeny).

Analýza byla opakovaně provedena napříč třemi podmnožinami zdvořilých dotazů, aby se otestovala robustnost: dotazy, které používaly explicitní značky, jako je ‘prosím’ nebo ‘děkuji’; ty, které používaly pouze ‘prosím’; a ty s implicitní zdvořilostí, jako ‘můžete’ nebo ‘mohl byste’:

Odhadované výsledky založené na typech zdvořilosti.

Odhadované výsledky založené na typech zdvořilosti.

Aby se ověřila robustnost hlavních zjištění, byla provedena sekundární klasifikace zdvořilosti dotazu pomocí LIWC frameworku, který poskytuje deterministický a opakující se skór pro lingvistické funkce.

Na rozdíl od probabilistické klasifikace GPT může LIWC přiřadit stabilní skór zdvořilosti každému dotazu, což umožňuje posoudit konzistenci napříč různými metodami. V této části testů byly dotazy označeny jako zdvořilé, pokud jejich LIWC skór zdvořilosti byl větší než nula, a jako nezdvořilé jinak.

Když se měřila shoda mezi LIWC a GPT klasifikacemi, byla pozorována 81% shoda. Přestože to není měřítkem přesnosti, tato shoda poskytovala podporu pro konzistenci mezi systémy.

Když byly analyzovány pouze dotazy s odpovídajícími GPT a LIWC klasifikacemi zdvořilosti, zdvořilé dotazy stále vedly k 14 méně výstupním tokenům; a když se zdvořilost měřila na klouzavé škále, každý krok nahoru ve zdvořilosti snižoval výstup o pět tokenů v průměru:

Úspory tokenů ze zdvořilosti se udržely, když byly reklassifikovány pomocí LIWC, både jako binární značka a kontinuální skór.

Úspory tokenů ze zdvořilosti se udržely, když byly reklassifikovány pomocí LIWC, beiden jako binární značka a kontinuální skór.

Odolnost

Aby se posoudila, zda efekt zdvořilosti se liší napříč různými typy dotazů, každý dotaz byl přiřazen do jedné z několika předdefinovaných kategorií úkolů: informační vyhledávání; generování textu; editace a přepsání; klasifikace; shrnutí; a technické úkoly.

Každý dotaz byl přiřazen k úkolovému labelu porovnáním jeho vložení s vloženími předdefinovaných úkolových popisů, pomocí all‑MiniLM‑L6‑v2 Sentence Transformers modelu.

Kosinové podobnosti byly vypočteny mezi každým dotazem a sadou úkolových definic, a label s nejvyšší podobností byl přiřazen.

Úkolové typy byly poté repurponovány jako kontrolní proměnné v regresi, aby se otestovalo, zda efekt zdvořilosti se liší podle kategorie dotazu, a interakční termíny mezi úkolem a léčbou byly také zavedeny, aby se kontrolovaly diferenciální efekty.

V obou případech zdvořilé dotazy konzistentně produkovaly kratší výstupy, a žádný významný rozdíl napříč úkolovými typy nebyl nalezen:

Regresní výsledky demonstrující, že zdvořilé dotazy snižovaly délku výstupu napříč všemi typy úkolů, bez významných interakčních efektů.

Regresní výsledky demonstrující, že zdvořilé dotazy snižovaly délku výstupu napříč všemi typy úkolů, bez významných interakčních efektů.

Aby se otestovalo, zda kratší odpovědi ze zdvořilých dotazů odrážely sníženou kvalitu, výstupy z původních a kontrafaktických dotazů byly porovnány z hlediska sémantické podobnosti. Použitím modelu all‑MiniLM‑L6‑v2 byl každý výstup vložen do sémantického vektorového prostoru, a kosinová podobnost byla vypočtena mezi každým párem, což vedlo k průměrné podobnosti 0,78, ukazující silnou shodu v významu, a naznačující, že obsah zůstal konzistentní, i když se tón změnil.

Stop slova

Aby se pochopilo, jaký typ obsahu je snížen v kratších výstupech, byly prozkoumány nejčastěji vynechávaná slova. Tyto byly nalezeny jako běžná stop-slova, jako ‘mít’, ‘více’, ‘kde’, a ‘do’, tj. termíny, které slouží gramatickým spíše než sémantickým rolím.

Aby se potvrdilo, že snížení tokenů nebylo způsobeno ztrátou významného obsahu, stop-slova byla odstraněna, a fráze až čtyř slov byly analyzovány pro systematické zmizení; nicméně, nebyly nalezeny žádné konzistentní nebo sémanticky důležité vzory, naznačující, že snížení z důvodu zdvořilého znění ne odstraňovalo významný nebo užitečný obsah.

Takže stále vypadalo, že více tokenů bylo vynaloženo na odpovědi na nezdvořilé dotazy než na zdvořilé – jako druh „daně“ z hrubosti.

Lidská studie

Aby se otestovalo, zda kvalita výstupu byla ovlivněna tónem dotazu, byla provedena také lidská evaluace, pomocí náhodného vzorku dvaceti zdvořilých a dvaceti nezdvořilých párů dotazů.

Po vyloučení dotazů na citlivá nebo technická témata byly odpovědi hodnoceny 401 účastníky na sedmi bodové škále. Každý účastník viděl pouze jednu odpověď, vybranou z jedné ze čtyř podmínek: zdvořilé nebo nezdvořilé, a buď původní nebo kontrafaktické.

Nebyly nalezeny žádné významné rozdíly v percepci kvality napříč žádnou z těchto podmínek. Zdvořilé a nezdvořilé výstupy obdržely téměř identické skóre, stejně jako původní a kontrafaktické verze.

Autoři tvrdí, že tyto výsledky ukazují, že snížení počtu tokenů nebylo způsobeno žádnou ztrátou kvality, ale spíše přepsáním, nebo strukturálními posuny, které přesto zachovaly význam.

Rozdíl v nákladech pozorovaný v podnikovém dotazování je proto nepravděpodobné, že odráží změny v užitečnosti nebo jasnosti, a „daň“ je stále účinná.

Závěr

Ačkoli nová práce se soustředí na podnikové použití ChatGPT, nižší úrovně uživatelů jsou také ovlivněny tímto syndromem, protože i dvě vstupní úrovně mají limity použití; a – předpokládá se – že nezdvořilé zacházení s ChatGPT urychlí průměrného uživatele směrem k vyčerpání denní alokace tokenů.

Nová studie se soustředí na titulky a mnohem studovanou otevřenou otázku v interakcích člověk/umělá inteligence; ale autoři zdůrazňují, že otázky kolem zdvořilosti by měly být brány jako indikátory možné hlubší jámy lingvistických podivností, dosud neobjevených, které se mohou ukázat jako ovlivňující poplatky za inference.

 

Poprvé publikováno ve středu, 19. listopadu 2025

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai