Andersonův úhel

Boj AI s analogovými hodinami může mít hlubší význam

mm
ChatGPT-4o and Adobe Firefly.

Nová studie výzkumníků z Číny a Španělska zjistila, že i pokročilé multimodální modely AI, jako je GPT-4.1, mají potíže s určením času z obrázků analogových hodin. Malé vizuální změny na hodinách mohou způsobit velké chyby v interpretaci, a fine-tuning pomáhá pouze u známých příkladů. Výsledky vyvolávají obavy o spolehlivosti těchto modelů, když jsou konfrontovány s neznámými obrázky v reálných úkolech.

 

Když lidé získají dostatečně hluboké porozumění nějaké oblasti, jako je gravitace nebo jiné základní fyzikální principy, přesahují konkrétní příklady a chápou základní abstrakce. To jim umožňuje aplikovat toto znalosti tvořivě v různých kontextech a rozpoznat nové instance, i když je chưa nikdy neviděli, identifikací principu v akci.

Když je oblast dostatečně důležitá, můžeme ji dokonce začít vnímat i tam, kde neexistuje, jako u pareidolie, poháněné vysokými náklady na to, že neuznáme skutečnou instanci. Tak silný je tento mechanismus rozpoznávání vzorců, že nás dokonce dispose najít širší řadu vzorců, i když tam nejsou.

Čím dříve a repetitivněji je oblast v nás zakořeněna, hlubší je její zakotvení a celoživotní přetrvávání; a jedna z prvních vizuálních dat, která jsou nám jako dětem představena, je ve formě učení hodin, kde se používají tištěné materiály nebo interaktivní analogové hodiny k učení, jak určit čas:

Nástroje pro učení, jak určit čas. Zdroj: https://www.youtube.com/watch?v=IBBQXBhSNUs

Nástroje pro učení, jak určit čas. Zdroj: https://www.youtube.com/watch?v=IBBQXBhSNUs

Přestože měnící se móda ve designu hodin nás někdy může vyzvat, odolnost tohoto raného ovládnutí oblasti je quite působivá, umožňující nám rozpoznat analogové hodiny i v případě komplexních nebo “excentrických” designových voleb:

Některé výzvy v hodinářském designu.

Některé výzvy v hodinářském designu.

Lidé nepotřebují tisíce příkladů, aby se naučili, jak hodiny fungují; jednou, když je pochopen základní koncept, můžeme rozpoznat jej v téměř jakékoli formě, i když je zkreslený nebo abstraktní.

Potíže, se kterými se modely AI potýkají s touto úlohou, naznačují hlubší problém: jejich zdánlivá síla může záviset více na vysoké objemové expozici než na skutečném porozumění.

Mimo Imitační Hru?

Napětí mezi povrchovou výkonností a skutečným “porozuměním” se objevilo opakovaně v nedávných vyšetřováních velkých modelů. Minulý měsíc Zhejiang University a Westlake University reformulovaly otázku v studii nazvané Do PhD-level LLMs Truly Grasp Elementary Addition? (která není předmětem tohoto článku), dospěly k závěru:

‘Navzdory působivým benchmarkům modely ukazují kritickou závislost na rozpoznávání vzorců spíše než na skutečném porozumění, jak je patrné z selhání se symbolickými reprezentacemi a porušením základních vlastností.

‘Explicitní poskytování pravidel zhoršuje výkon, což naznačuje vnitřní architektonické omezení. Tyto poznatky odhalují mezery v hodnocení a zdůrazňují potřebu architektur schopných skutečného matematického uvažování beyond rozpoznávání vzorců.’

Tento týden se otázka opět objevuje, nyní ve spolupráci mezi Nanjing University of Aeronautics and Astronautics a Universidad Politécnica de Madrid ve Španělsku. Nazvaná Multimodální Velké Jazykové Modely (MLLMs) Really Learned to Tell the Time on Analog Clocks?, nová studie zkoumá, jak dobře multimodální modely rozumějí určování času.

Přestože pokrok výzkumu je popsán pouze v broad detailu v článku, počáteční testy výzkumníků stanovily, že OpenAI’s GPT-4.1 multimodální jazykový model měl potíže s určením času z rozmanité sady obrázků hodin, často poskytující nesprávné odpovědi i v jednoduchých případech.

To naznačuje možnou mezeru v trénovacích datech modelu, což zvyšuje potřebu vyváženějšího datasetu, aby se otestovalo, zda model může skutečně naučit základní koncept. Proto autoři vytvořili syntetický dataset analogových hodin, který rovnoměrně pokrývá každý možný čas a vyhýbá se běžným biasům nalezeným na internetových obrázcích:

Příklad z výzkumníků syntetického datasetu analogových hodin, použitý pro fine-tuning GPT modelu v nové práci. Zdroj: https://huggingface.co/datasets/migonsa/analog_watches_finetune

Příklad z výzkumníků syntetického datasetu analogových hodin, použitý pro fine-tuning GPT modelu v nové práci. Zdroj: https://huggingface.co/datasets/migonsa/analog_watches_finetune

Před fine-tuningem na novém datasetu GPT-4.1 konzistentně selhal při čtení těchto hodin. Po nějaké expozici na novém datasetu se však jeho výkon zlepšil – ale pouze když nové obrázky vypadaly jako ty, které již viděl.

Když se tvar hodin nebo styl ruček změnil, přesnost klesla prudce; dokonce i malé úpravy, jako tenčí ručky nebo šipky (pravá obrázek níže), byly dostatečné, aby ho srazily; a GPT-4.1 měl potíže navíc s interpretací Daliho ‘roztavených hodin’:

Obrázky hodin se standardním designem (vlevo), zkresleným tvarem (uprostřed) a modifikovanými ručkami (vpravo), spolu s časy vrácenými GPT-4.1 před a po fine-tuning. Zdroj: https://arxiv.org/pdf/2505.10862

Obrázky hodin se standardním designem (vlevo), zkresleným tvarem (uprostřed) a modifikovanými ručkami (vpravo), spolu s časy vrácenými GPT-4.1 před a po fine-tuning. Zdroj: https://arxiv.org/pdf/2505.10862

Autoři dedukují, že současné modely, jako je GPT-4.1, mohou tedy učit čtení hodin principalmente prostřednictvím vizuálního rozpoznávání vzorců, spíše než hlubšího konceptu času, a tvrdí:

‘[GPT 4.1] selhává, když jsou hodiny deformovány nebo když jsou ručky změněny na tenčí a mají šipku. Průměrná absolutní chyba (MAE) v odhadu času nad 150 náhodnými časy byla 232,48 s pro počáteční hodiny, 1380,69 s, když je tvar deformován a 3726,93 s, když jsou ručky změněny.

‘Tyto výsledky naznačují, že MLLM se nenaučil určit čas, ale spíše zapamatoval vzorce.’

Dostatek Času

Většina trénovacích datasetů se spoléhá na vyškrabované internetové obrázky, které tendují k opakování určitých časů – zejména 10:10, oblíbená volba v reklamách na hodinky:

Z nové studie, příklad prevalence času 'deset minut po deseti' v obrázcích analogových hodin.

Z nové studie, příklad prevalence času ‘deset minut po deseti’ v obrázcích analogových hodin.

V důsledku tohoto omezeného rozsahu zobrazených časů může model vidět pouze úzký rozsah možných konfigurací hodin, což omezuje jeho schopnost generalizovat beyond tyto repetitivní vzorce.

Ohledně toho, proč modely selhávají při správné interpretaci zkreslených hodin, článek uvádí:

‘Ačkoli GPT-4.1 funguje výjimečně dobře se standardními obrázky hodin, je překvapující, že modifikace hodinových ruček tak, aby byly tenčí a měly šipky, vede ke značnému poklesu jeho přesnosti.

‘Intuitivně by se dalo očekávat, že vizuálně komplexnější změna – zkreslený ciferník – by měla větší dopad na výkon, ale tato modifikace parece mít relativně menší efekt.

‘To vyvolává otázku: jak MLLM interpretují hodiny a proč selhávají? Jednou z možností je, že tenčí ručky zhoršují modelovu schopnost vnímat směr, oslabují jeho porozumění prostorové orientaci.

‘Alternativně by mohly existovat další faktory, které způsobují zmatení, když se model snaží kombinovat hodinovou, minutovou a sekundovou ručku do přesného času.’

Autoři tvrdí, že identifikace kořenové příčiny těchto selhání je klíčová pro pokrok multimodálních modelů: pokud problém spočívá v tom, jak model vnímá prostorovou orientaci, fine-tuning by mohl nabídnout jednoduché řešení; ale pokud problém pramení z větší obtíže při integraci více vizuálních signálů, naznačuje to hlubší slabost v tom, jak tyto systémy zpracovávají informace.

Testy Fine-Tuning

Aby se otestovalo, zda selhání modelu lze překonat expozicí, GPT-4.1 byl fine-tuned na výše zmíněném a komplexním syntetickém datasetu. Před fine-tuningem byly jeho předpovědi široce rozptýleny, s významnými chybami napříč všemi typy hodin. Po fine-tuning na datasetu se přesnost prudce zlepšila na standardních cifernících a, do jisté míry, na zkreslených.

Avšak hodiny s modifikovanými ručkami, jako jsou tenčí tvary nebo šipky, pokračovaly ve výrobě velkých chyb.

Dva odlišné režimy selhání se objevily: na normálních a zkreslených hodinách model obvykle nesprávně odhadl směr ruček; ale na hodinách s alterovanými styly ruček, často zmatenými funkcemi každé ručky, zaměňoval hodinovou ručku za minutovou nebo minutovou za sekundovou.

Srovnání ilustrující počáteční slabost modelu a částečné zisky dosažené prostřednictvím fine-tuning, ukazující předpovězený vs. skutečný čas, v sekundách, pro 150 náhodně vybraných hodin. Vlevo, před fine-tuningem, předpovědi GPT-4.1 jsou rozptýleny a často daleko od správných hodnot, označených červenou diagonální linií. Vpravo, po fine-tuning na vyváženém syntetickém datasetu, předpovědi se shodují mnohem více se skutečnými hodnotami, přestože některé chyby zůstávají.

Srovnání ilustrující počáteční slabost modelu a částečné zisky dosažené prostřednictvím fine-tuning, ukazující předpovězený vs. skutečný čas, v sekundách, pro 150 náhodně vybraných hodin. Vlevo, před fine-tuningem, předpovědi GPT-4.1 jsou rozptýleny a často daleko od správných hodnot, označených červenou diagonální linií. Vpravo, po fine-tuning na vyváženém syntetickém datasetu, předpovědi se shodují mnohem více se skutečnými hodnotami, přestože některé chyby zůstávají.

To naznačuje, že model se naučil spojovat vizuální rysy, jako je tloušťka ruček, se specifickými úlohami, a měl potíže, když se tyto signály změnily.

Omezený pokrok u neznámých designů vyvolává další pochybnosti o tom, zda model tohoto typu učí abstraktní koncept určování času, nebo zda pouze rafinuje své rozpoznávání vzorců.

Ruční Signály

Takže, přestože fine-tuning zlepšil výkon GPT-4.1 na konvenčních analogových hodinách, měl daleko menší dopad na hodiny s tenčími ručkami nebo šipkami, což zvyšuje možnost, že selhání modelu pramení méně z abstraktního uvažování a více z matení, které ručka je která.

Aby se otestovalo, zda by přesnost mohla zlepšit, kdyby toto zmatení bylo odstraněno, byla provedena nová analýza předpovědí modelu pro dataset “modifikované ručky”. Výstupy byly rozděleny do dvou skupin: případy, kdy GPT-4.1 správně rozpoznal hodinovou, minutovou a sekundovou ručku; a případy, kdy ne.

Předpovědi byly vyhodnoceny pro Průměrnou Absolutní Chybu (MAE) před a po fine-tuning a výsledky byly srovnány se standardními hodinami; úhlová chyba byla také měřena pro každou ručku pomocí polohy ciferníku jako základny:

Srovnání chyb pro hodiny s a bez zmatení rolí ruček v datasetu modifikovaných ruček před a po fine-tuning.

Srovnání chyb pro hodiny s a bez zmatení rolí ruček v datasetu modifikovaných ruček před a po fine-tuning.

Zmatení rolí hodinových ruček vedlo k největším chybám. Když GPT-4.1 zaměnil hodinovou ručku za minutovou nebo naopak, výsledné odhady času byly často daleko od reality. Naopak chyby způsobené nesprávným odhadem směru správně identifikované ručky byly menší. Mezi třemi ručkami ukázala hodinová ručka nejvyšší úhlovou chybu před fine-tuningem, zatímco sekundová ručka ukázala nejnižší.

Úhlová chyba podle typu ručky pro předpovědi s a bez zmatení rolí ruček, před a po fine-tuning, v datasetu modifikovaných ruček.

Úhlová chyba podle typu ručky pro předpovědi s a bez zmatení rolí ruček, před a po fine-tuning, v datasetu modifikovaných ruček.

Aby se zaměřilo pouze na směrové chyby, analýza byla omezena na případy, kdy model správně identifikoval funkci každé ručky. Pokud by model internalizoval obecný koncept určování času, jeho výkon by měl odpovídat jeho přesnosti na standardních hodinách. Neměl, a přesnost zůstala zřetelně horší.

Aby se prozkoumalo, zda tvar ručky interferuje s modelovým smyslem pro směr, byl proveden druhý experiment: dvě nové datasety byly vytvořeny, každá obsahující šedesát syntetických hodin s pouze hodinovou ručkou, ukazující na různé minutové značky. Jedna sada používala originální design ručky, a druhá modifikovanou verzi. Model byl požádán, aby pojmenoval značku, na kterou ručka ukazovala.

Výsledky ukázaly mírný pokles přesnosti s modifikovanými ručkami, ale ne dostatečně, aby vysvětlily modelovy širší selhání. Jediná neznámá vizuální vlastnost se zdála schopná narušit modelovu celkovou interpretaci, i v úkolech, které dříve prováděl dobře.

Přehled výkonu GPT-4.1 před a po fine-tuning přes standardní, zkreslené a modifikované ručky, zdůrazňující nerovnoměrné zisky a přetrvávající slabosti.

Přehled výkonu GPT-4.1 před a po fine-tuning přes standardní, zkreslené a modifikované ručky, zdůrazňující nerovnoměrné zisky a přetrvávající slabosti.

Závěr

Přestože se práce může na první pohled zdát triviální, není důležité, zda modely AI někdy naučí číst analogové hodiny s 100% přesností. Co dává práci váhu, je její zaměření na hlubší opakující se otázku: zda nasycení modelů více (a více rozmanitými) daty může vést k tomu druhu porozumění oblasti, které lidé získávají prostřednictvím abstrakce a generalizace; nebo zda jedinou životaschopnou cestou je zaplavit oblast dostatečným množstvím příkladů, aby se předcházelo každé pravděpodobné variaci při inference.

Obě cesty vyvolávají pochybnosti o tom, co současné architektury jsou skutečně schopny naučit.

 

Poprvé zveřejněno v pondělí, 19. května 2025

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai