Andersonův úhel
AI zápasí s emulací historického jazyka

Spolupráce mezi výzkumníky ve Spojených státech a Kanadě zjistila, že velké jazykové modely (LLM) jako ChatGPT mají potíže s reprodukcí historických idiomů bez rozsáhlého předtrénování – nákladného a pracovně náročného procesu, který leží za možnostmi většiny akademických nebo zábavních iniciativ, což dělá projekty, jako je dokončení posledního, nedokončeného románu Charlese Dickense pomocí AI, efektivní proposition.
Výzkumníci prozkoumali řadu metod pro generování textu, který zní historicky přesně, začínající jednoduchým.promptingem pomocí raného dvacátého století prózy a přecházející k fine-tuning komerčního modelu na malé sbírce knih z té doby.
Také srovnali výsledky s odděleným modelem, který byl trénován zcela na knihách publikovaných mezi 1880 a 1914.
V prvním z testů, instruování ChatGPT-4o, aby napodobilo fin‑de‑siècle jazyk, produkovalo docela odlišné výsledky od těch menších GPT2-založených modelů, které byly fine-tuned na literatuře z období:

Požádáno o dokončení skutečného historického textu (horní střed), dokonce i dobře připravený ChatGPT-4o (dolní levá) nemůže pomoci a sklouzává zpět do ‘blog’ režimu, selhává v reprezentaci požadovaného idiomu. Naopak, fine-tuned GPT2 model (dolní pravá) zachytí styl jazyka dobře, ale není tak přesný v jiných směrech. Source: https://arxiv.org/pdf/2505.00030
Ačkoli fine-tuning přibližuje výstup k originálnímu stylu, lidské čtenáře byly stále často schopny detekovat stopy moderního jazyka nebo myšlenek, což naznačuje, že i pečlivě upravené modely pokračují v odrážení vlivu jejich současného tréninkového data.
Výzkumníci dospěli k frustrujícímu závěru, že neexistují žádné ekonomické zkratky pro generování strojově vyrobeného idiomaticky správného historického textu nebo dialogu. Také spekulují, že samotná výzva může být špatně formulována:
‘[Měli] bychom také zvažovat možnost, že anachronismus může být v nějakém smyslu nevyhnutelný. Bez ohledu na to, zda reprezentujeme minulost instrukcemi pro historické modely, aby mohly vést konverzace, nebo učíme současné modely, aby ventrolokovaly starší období, some kompromis může být nezbytný mezi cíli autenticity a konverzační plynulosti.
‘Existují, přece, žádné “autentické” příklady konverzace mezi dvacátým prvním stoletím tazatelem a respondentem z roku 1914. Výzkumníci, kteří se snaží vytvořit takovou konverzaci, budou muset reflektovat [předpoklad], že interpretace vždy zahrnuje vyjednávání mezi současností a [minulostí].’
Nová studie je nazvaná Mohou jazykové modely reprezentovat minulost bez anachronismu?, a pochází od tří výzkumníků z University of Illinois, University of British Columbia a Cornell University.
Úplná katastrofa
Zpočátku, ve třídílném výzkumném přístupu, autoři testovali, zda moderní jazykové modely mohou být přinuceny napodobit historický jazyk pomocí jednoduchého promptingu. Použili skutečné pasáže z knih publikovaných mezi 1905 a 1914, požádali ChatGPT‑4o, aby pokračoval v těchto pasážích ve stejném idiomu.
Originální periodický text byl:
‘V tomto posledním případě je some pět nebo šest dolarů ušetřeno za minutu, protože více než dvacet yardů filmu musí být navinuto, aby se během jedné minuty promítl objekt osoby v klidu nebo krajiny. Tímto je získána praktická kombinace pevných a pohyblivých obrazů, která produkuje nejuměleckější efekty.
‘Také umožňuje pracovat se dvěma kinematografy, které střídavě promítají, aby se zabránilo scintilaci, nebo promítají současně červené a zelené obrazy a reprodukují přirozené barvy, tím ulevují lidskému oku, zvyklému na příjem základních barev současně, od všech fyziologických únav. Slovo nyní o aplikaci studeného světla na okamžité fotografii.’
Aby vyhodnotili, zda vygenerovaný text odpovídal zamýšlenému historickému stylu, a vědomi si, že lidé nejsou zvláště dobří v odhadování data, kdy byl text napsán, výzkumníci fine-tuned RoBERTa model, aby odhadl datum publikace, pomocí podmnožiny Corpus of Historical American English, pokrývající materiál z roku 1810 do 2009.
RoBERTa klasifikátor byl pak použit k vyhodnocení pokračování vygenerovaných ChatGPT‑4o, které byly promptovány skutečnými pasážemi z knih publikovaných mezi 1905 a 1914.
Systémový prompt (tj. kontextové instrukce pro ChatGPT, jak přistupovat k úkolu) byl:
‘Vaším úkolem je dokončit pasáže z knih raného dvacátého století. Budete mít pasáž z knihy publikované v roce 1913. Pokračujte v této pasáži ve stejném stylu, alespoň 200 slov. Poskytněte pouze toto pokračování; nečinite žádné rámcové poznámky, jako „zde je pokračování:“.
Navzdory one-shot a 20-shot prompting, ChatGPT-4o’s výstupy konzistentně směřovaly k 21. století stylistickému rejstříku.
Příklad uvedený v článku obsahuje jeden z ChatGPT-4o’s blog-like pokusů dokončit skutečný periodický text o fotografii:
‘Použití studeného světla v okamžité fotografii revolucionalizovalo přístup ke snímání obrazů za různých světelných podmínek. Tradičně, fotografové bojovali s drsností a variabilitou přirozeného světla nebo rušivou povahou bleskového osvětlení, které mohlo narušit atmosféru scény nebo přirozené chování subjektů, zejména ve wildlife a kandidátní fotografii.
‘Studené světlo, se svou měkkou a více rozptýlenou povahou… umožňuje více přirozené reprezentaci barev a textur, které jsou často ztraceny pod drsným umělým osvětlením.’
Jak můžeme snadno vidět, tento generický, Wiki-styl text neodpovídá prolixnímu a elaborovanému stylu originálního periodického textu. Kromě toho, nekontinuuje skutečný obsah, ale spustí se do tangentního, abstraktního zamyšlení nad jednou z podtémat.
Tým také testoval GPT‑1914, menší GPT‑2–třídu model trénovaný od začátku na 26,5 miliardách tokenů literatury datované mezi 1880 a 1914.
Ačkoli jeho výstup byl méně koherentní než ten z ChatGPT‑4o, byl více konzistentní se stylem zdrojového období. Jediný příklad poskytnutý v článku, opět jako dokončení skutečného periodického textu o fotografii, zní:
‘Zásada jeho působení byla již vysvětlena (str. 4). Budeme zde pouze zmínit, že může být aplikován s výhodou, když chceme získat velmi rychlé fotografie na papíru potaženém collodionem, stejně jako ty, které jsou pořízeny pomocí gelatinních desek.
‘V takových případech musí být expozice kratší než jedna sekunda; ale pokud je obraz požadován k rozvoji v kratším čase – řekněme půl sekundy – pak by teplota neměla klesnout pod 20° C., jinak by obraz stal příliš tmavý po rozvoji; navíc by deska ztratila svou citlivost za těchto podmínek.
‘Pro obyčejné účely však stačí pouze vystavit citlivou plochu nízkému stupni tepla bez zvláštních opatření nutných kromě udržování’ [sic]
Protože i skutečný a originální materiál je arcán a poměrně těžké sledovat, je obtížné pochopit, do jaké míry GPT-1914 přesně zachytil originál; ale výstup určitě zní více periodicky autenticky.
Nicméně, autoři uzavřeli z tohoto experimentu, že jednoduché prompting dělá málo pro překonání současného zkreslení velkého předtrénovaného modelu, jako je ChatGPT-4o.
Hustá zápletka
Aby měřili, jak blízko modelových výstupů připomínaly autentické historické psaní, výzkumníci použili statistický klasifikátor k odhadu pravděpodobného data publikace každého textu. Poté vizualizovali výsledky pomocí kernel density plot, který ukazuje, kde se model domnívá, že každá pasáž spadá do historického časového rámce.

Odhadovaná data publikace pro skutečné a vygenerované texty, založené na klasifikátoru trénovaném k rozpoznání historického stylu (1905–1914 zdroj textů ve srovnání s pokračováním GPT‑4o pomocí one-shot a 20-shot promptů a GPT‑1914 trénovaného pouze na literatuře z let 1880–1914).
Fine‑tuned RoBERTa model použitý pro tuto úlohu, autoři poznamenávají, není bezchybný, ale byl nicméně schopen zvýraznit obecné stylistické trendy. Pasáže napsané GPT‑1914, modelem trénovaným zcela na periodické literatuře, shlukovaly se kolem raného dvacátého století – podobně jako originální zdrojový materiál.
Naopak, ChatGPT-4o’s výstupy, dokonce i když byly promptovány mnohokrát historickými příklady, tendenci připomínaly dvacáté první století psaní, odrážející data, na kterých byl původně trénován.
Výzkumníci kvantifikovali tento nesoulad pomocí Jensen-Shannon divergence, míry, jak se dvě pravděpodobnostní distribuce liší. GPT‑1914 skóroval blízký 0,006 ve srovnání se skutečným historickým textem, zatímco ChatGPT‑4o’s one-shot a 20-shot výstupy ukázaly mnohem širší mezery, na 0,310 a 0,350, resp.
Autoři argumentují, že tyto výsledky naznačují, že prompting sám o sobě, dokonce i s mnohokrát příklady, není spolehlivým způsobem, jak produkovat text, který přesvědčivě simuluje historický styl.
Dokončení pasáže
Poté výzkumníci prozkoumali, zda fine-tuning může produkovat lepší výsledek, protože tento proces zahrnuje přímé ovlivňování použitelných váh modelu pokračováním jeho tréninku na uživatelsky specifických datech – proces, který může ovlivnit původní jádrovou funkčnost modelu, ale významně zlepšit jeho výkon na doméně, která je „tlačena“ do něj nebo zdůrazněna během fine-trénování.
V prvním fine-tuning experimentu, tým trénoval GPT‑4o‑mini na přibližně dvě tisíce pasážových dokončení párů vytažených z knih publikovaných mezi 1905 a 1914, s cílem zjistit, zda menší fine-tuning může posunout modelův výstup směrem k více historicky přesnému stylu.
Používajíce stejný RoBERTa-založený klasifikátor, který působil jako soudce v předchozích testech, aby odhadl stylistický „datum“ každého výstupu, výzkumníci zjistili, že v novém experimentu, fine-tuned model produkoval text úzce zarovnaný s ground truth.
Jeho stylistická divergence od originálních textů, měřená pomocí Jensen-Shannon divergence, klesla na 0,002, obecně v souladu s GPT‑1914:

Odhadovaná data publikace pro skutečné a vygenerované texty, ukazující, jak blízko GPT‑1914 a fine-tuned verze GPT‑4o‑mini odpovídají stylu raného dvacátého století psaní (založené na knihách publikovaných mezi 1905 a 1914).
Nicméně, výzkumníci varují, že tato metrika může zachytit pouze povrchové rysy historického stylu, a ne hlubší konceptuální nebo faktické anachronismy.
‘[To] není velmi citlivý test. RoBERTa model použitý jako soudce zde je trénován pouze k predikci data, ne k diskriminaci autentických pasáží od anachronistických. Pravděpodobně používá hrubé stylistické důkazy k této predikci. Lidské čtenáře nebo větší modely by mohly stále detekovat anachronistický obsah v pasážích, které povrchově „zní v období“.’
Lidský dotek
Nakonec, výzkumníci provedli testy lidské evaluace pomocí 250 ručně vybraných pasáží z knih publikovaných mezi 1905 a 1914, a pozorují, že mnoho z těchto textů by bylo pravděpodobně interpretováno jinak dnes než v době psaní:
‘Naše seznam zahrnoval, například, encyklopedickou položku o Alsasku (který byl tehdy částí Německa) a jeden o beri-beri (který byl tehdy často vysvětlován jako houbové onemocnění spíše než nutriční deficience). Zatímco ty jsou rozdíly fakt, jsme také vybrali pasáže, které by zobrazily jemnější rozdíly v postoji, rétorice nebo imaginaci.
‘Například, popisy ne-evropských míst v raném dvacátém století tendenci sklouzávat do rasových generalizací. Popis východu slunce na Měsíci napsaný v roce 1913 si představuje bohaté chromatické jevy, protože nikdo ještě neviděl fotografie světa bez atmosféry.’
Výzkumníci vytvořili krátké otázky, které každá historická pasáž mohla plausibilně zodpovědět, poté fine-tuned GPT‑4o‑mini na těchto otázka–odpověď párech. Aby posílili evaluaci, trénovali pět samostatných verzí modelu, každým časem držící jinou část dat pro testování.
Poté produkovali odpovědi pomocí obou výchozích verzí GPT-4o a GPT-4o‑mini, jakož i fine-tuned variant, každá hodnocena na části, které neviděla během trénování.
Ztracen v čase
Aby vyhodnotili, jak přesvědčivě modely mohly imitovat historický jazyk, výzkumníci požádali tři odborné anotátory, aby přezkoumali 120 AI-generovaných dokončení, a soudili, zda každá z nich vypadala jako psaná v roce 1914.
Tento přímý evaluace přístup se ukázal být více náročným, než se očekávalo: ačkoli anotátoři souhlasili ve svých hodnoceních téměř osmdesátkrát, nesoulad v jejich soudcích (s „plausibilním“ vybraným dvakrát častěji než „nepřijatelným“) znamenal, že jejich skutečná úroveň dohody byla pouze mírná, měřená Cohen’s kappa score 0,554.
Hodnotitelé sami popsali úkol jako obtížný, často vyžadující další výzkum, aby vyhodnotili, zda prohlášení souhlasilo s tím, co bylo známo nebo věřeno v roce 1914.
Některé pasáže vyvolaly obtížné otázky o tónu a perspektivě – například, zda odpověď byla vhodně omezena ve svém světě, aby odrážela, co by bylo typické v roce 1914. Tento druh soudů často závisel na úrovni ethnocentrismu (tj. tendenci vidět jiné kultury skrze předpoklady nebo předpojatosti jedné vlastní).
V tomto kontextu, výzvou bylo rozhodnout, zda pasáž vyjádřila dostatečnou kulturní předpojatost, aby zněla historicky plausible, aniž by zněla příliš moderně nebo příliš otevřeně urážlivě podle dnešních standardů. Autoři poznamenávají, že i pro učence, kteří jsou熟í s obdobím, bylo obtížné nakreslit jasnou linii mezi jazykem, který cítí historicky přesně, a jazykem, který odráží současné myšlenky.
Nicméně, výsledky ukázaly jasnou klasifikaci modelů, s fine-tuned verzí GPT‑4o‑mini hodnocenou jako nejvíce plausible overall:

Hodnotitelů hodnocení, jak plausible vypadala každá modelová výstup
Zda je tato úroveň výkonu, hodnocená jako plausible v osmdesáti procentech případů, je dostatečně spolehlivá pro historický výzkum, zůstává nejasná – zejména protože studie nezahrnovala základní míru, jak často skutečné periodické texty mohly být nesprávně klasifikovány.
Varování před vetřelcem
Další přišel ‘intruder test’, kde odborní anotátoři byli ukázáni čtyři anonymní pasáže, které odpovídaly na stejnou historickou otázku. Tři z odpovědí pocházely z jazykových modelů, zatímco jedna byla skutečná a autentická pasáž z skutečného raného dvacátého století zdroje.
Úkolem bylo identifikovat, která pasáž byla originál, skutečně napsaná během období.
Tento přístup neptal se anotátorů, aby přímo ohodnotili plausibilitu, ale spíše měřil, jak často skutečná pasáž vynikla z AI-generovaných odpovědí, ve skutečnosti testující, zda modely mohly oklamat čtenáře, aby si mysleli, že jejich výstup je autentický.
Klasifikace modelů odpovídala výsledkům z předchozích hodnocení úkolu: fine-tuned verze GPT‑4o‑mini byla nejvíce přesvědčivá mezi modely, ale stále nedosahovala skutečné věci.

Četnost, s níž byla každá zdroj správně identifikována jako autentická historická pasáž.
Tento test také sloužil jako užitečná referenční hodnota, protože, s pravou pasáží identifikovanou více než polovinou času, mezera mezi autentickým a syntetickým prosem zůstala zřetelná pro lidské čtenáře.
Statistická analýza známá jako McNemar’s test potvrdila, že rozdíly mezi modely byly významné, s výjimkou případu dvou untuned verzí (GPT‑4o a GPT‑4o‑mini), které vykonaly podobně.
Budoucnost minulosti
Autoři zjistili, že prompting moderních jazykových modelů, aby přijaly historický hlas, nedůsledně produkoval přesvědčivé výsledky: méně než dvě třetiny výstupů byly hodnoceny jako plausible lidskými čtenáři, a dokonce i tento údaj pravděpodobně přehánějí výkon.
V mnoha případech, odpovědi zahrnovaly explicitní signály, že model mluvil z perspektivy současnosti – fráze, jako ‘v roce 1914, ještě není známo, že…’ nebo ‘k roku 1914, nejsem obeznámen s…’ byly dostatečně časté, aby se objevily v až jedné pětině dokončení. Tyto DISCLAIMERY dělaly jasným, že model simuloval historii zvenčí, spíše než psal z ní.
Autoři uvádějí:
‘Špatný výkon in-context učení je nešťastný, protože tyto metody jsou nejjednodušší a nejlevnější pro AI-založený historický výzkum. Podtrhujeme, že jsme nevyčerpali tyto přístupy úplně.
‘Může se ukázat, že in-context učení je dostatečné – nyní nebo v budoucnu – pro podmnožinu výzkumných oblastí. Ale naše počáteční důkazy nejsou povzbudivé.’
Autoři uzavírají, že zatímco fine-tuning komerčního modelu na historických pasážích může produkovat stylisticky přesvědčivé výstupy při minimálních nákladech, ne zcela eliminuje stopy moderní perspektivy. Předtrénování modelu zcela na periodickém materiálu se vyhněte anachronismu, ale vyžaduje mnohem větší zdroje, a vede k méně plynulému výstupu.
Žádná z metod nenabízí kompletní řešení, a prozatím, jakýkoli pokus simulerovat historické hlasy zdá se, že zahrnuje kompromis mezi autenticitou a koherencí. Autoři uzavírají, že další výzkum bude třeba, aby se vyjasnilo, jak nejlépe navigovat tento napětí.
Závěr
Možná jednou z nejzajímavějších otázek, které vyvstávají z nové studie, je otázka autenticity. Zatímco nejsou dokonalými nástroji, ztrátové funkce a metriky, jako LPIPS a SSIM, poskytují počítačovým vizionářům alespoň metodologii pro hodnocení proti ground truth.
Když generují nový text ve stylu minulé éry, na druhou stranu, neexistuje ground truth – pouze pokus o obydlení zmizelé kulturní perspektivy. Pokus o rekonstrukci této mysli z literárních stop je sám o sobě aktem quantizace, protože tyto stopy jsou pouze důkazy, zatímco kulturní vědomí, z něhož vznikají, zůstává za hranicemi inference, a pravděpodobně i za hranicemi představivosti.
Z praktického hlediska, základy moderních jazykových modelů, tvarované současnými normami a daty, riskují reinterpretovat nebo potlačit myšlenky, které by se zdály rozumné nebo samozřejmé čtenáři z éry Edwarda.
Ptáme se, zda bychom mohli vytvořit takový dialog, zda by nás nemohl odpudit.
Poprvé publikováno v pátek, 2. května 2025










