Umělá inteligence
Test-Time Scaling: Tajemný Přísadový Recept Za Novou Vlnou Modelů S Rozumním Uvažováním Na Úrovni PhD

Obor umělých inteligencí dosáhl bodu, kdy jednoduše přidání více dat nebo zvětšení modelu není nejlepší způsob, jak jej učinit inteligentnějším. V posledních letech jsme se domnívali, že pokud postavíme větší neuronové sítě a nakrmíme je více internetu, nakonec se stanou inteligentnějšími. Tento přístup, nazývaný zákony měřítkování, fungoval pozoruhodně dobře. Poskytl nám modely, které mohou psát básně, překládat jazyky a složit bar exam. Nicméně tyto modely často bojovaly s hlubokou logikou, složitou matematikou a vícekrokovými vědeckými problémy. Byly excelente v rozpoznávání vzorců, ale často selhávaly u problémů, které vyžadují vícekrokové uvažování.
Nedávno se objevila nová tendence, která mění způsob, jakým přemýšlíme o schopnostech AI. Tato tendence se nazývá test-time scaling. Místo toho, aby se zaměřila pouze na to, kolik modelu se naučí během své tréninkové fáze, výzkumníci se nyní zaměřují na to, kolik “myslí” model, když skutečně odpovídá na otázku. Tento posun je tajemným přísadovým receptem za poslední vlnou modelů uvažování, jako je OpenAI’s o1 series, které nyní fungují na úrovni studentů PhD v obtížných předmětech, jako je fyzika, chemie a biologie.
Přechod Od Škálování Tréninku K Škálování Inference
Abychom pochopili, proč je to významná změna, musíme se podívat, jak byl AI postaven až dosud. Tradičně byla “inteligence” modelu určena na základě jeho tréninku. To zahrnovalo strávení měsíců a milionů dolarů na běh obrovského množství dat prostřednictvím tisíců GPU. Jakmile byl trénink dokončen, model byl prakticky zmrazen. Když jste mu položili otázku, poskytl odpověď téměř okamžitě na základě vzorců, které již naučil. To se nazývá inference nebo test-time.
Problém s tímto tradičním přístupem je, že model má pouze jednu šanci odpovědět správně. Zpracovává podnět a generuje tokeny jeden po druhém bez možnosti “myslet” nebo “zkontrolovat” svou logiku předtím, než odpoví. Test-time scaling mění tuto dynamiku. Umožňuje modelu využít více výpočetních zdrojů během fáze inference. Stejně jako člověk může trvat několik sekund, aby odpověděl na jednoduchou otázku, ale několik minut nebo hodin, aby vyřešil složitý matematický problém, AI modely jsou nyní navrženy tak, aby škálovaly svůj úsilí na základě obtížnosti úkolu.
Definice Konceptu Test-Time Scaling
Test-time scaling odkazuje na techniky, které umožňují AI modelu využít extra výpočetních zdrojů pro zpracování požadavku v okamžiku dodání. V jednoduchých termínech to znamená dát modelu více “myslícího času”. To není o tom, aby se model stal větším; je to o tom, aby se model stal více úmyslným. Když model využívá test-time scaling, nevytváří pouze první odpověď, která mu přijde na mysl. Místo toho může prozkoumat různé cesty, zkontrolovat chyby ve své vlastní logice a upravit svou odpověď předtím, než ji uživatel uvidí.
Tento koncept je často srovnáván s tím, jak funguje lidský mozek. Psychologové často mluví o “Systému 1” a “Systému 2” myšlení. Systém 1 je rychlý, instinktivní a emocionální. Je to to, co používáte, když rozpoznáte tvář nebo řídíte auto po známé cestě. Systém 2 je pomalejší, úmyslnější a logičtější. Je to to, co používáte, když řešíte složitou matematickou rovnici nebo plánujete komplexní projekt. Až dosud byly LLMs většinou Systémem 1 myšlení. Test-time scaling je most, který umožňuje přístup k Systému 2 myšlení.
Mechanika Procesu Uvažování
Existuje několik způsobů, jak výzkumníci dosahují test-time scaling. Jednou z nejčastějších metod je nazývána Chain of Thought (CoT) prompting, ale v těchto nových modelech je integrována přímo do systému, spíše než že by to bylo něco, co musí uživatel požádat. Model je trénován tak, aby rozložil problém na menší, logické kroky. Tímto způsobem může model ověřit každou část řešení předtím, než přejde k dalšímu.
Další důležitou technikou je využití vyhledávacích algoritmů, jako je Monte Carlo Tree Search. Místo toho, aby pouze předpovídal nejpravděpodobnější slovo, model generuje několik možných cest pro odpověď. Hodnotí tyto cesty a určuje, která z nich je nejpravděpodobnější, aby vedla k správnému řešení. Pokud narazí na slepou uličku nebo si uvědomí, že předchozí krok byl špatný, může se vrátit a vyzkoušet jinou cestu. Tato “předhledná” schopnost je velmi podobná tomu, jak šachový engine vyhodnocuje tisíce možných tahů, než si vybere ten nejlepší. Prostřednictvím vyhledávání mnoha možností během fáze inference může model vyřešit mnohem složitější problémy, než ty, které lze vyřešit přímo pomocí standardního LLM.
Proč Rozumné Uvažování Na Úrovni PhD Vyžaduje Více Než Pouhou Paměť
Důvod, proč je toto tak důležité, spočívá v tom, že vysoké úrovni uvažování ve vědě a matematice nelze vyřešit pouze pomocí paměti. V zkoušce z fyziky na úrovni PhD nelze pouze zopakovat fakt, který jste četli v učebnici. Musíte aplikovat komplexní principy na novou a jedinečnou situaci. Standardní modely často halucinují v těchto scénářích, protože se snaží předpovědět následující slovo na základě pravděpodobnosti, spíše než logiky.
Test-time scaling umožňuje modelu jednat více jako výzkumník. Může testovat hypotézy interně. Například, pokud je model požádán o napsání komplexního kódu, může “spustit” logiku ve svém skrytém řetězci myšlenek, identifikovat potenciální chybu a opravit ji, než předloží konečný kód. Tato schopnost sebeopravy je tím, co umožňuje nové vlně modelů dosáhnout vysokých skórů na benchmarcích, jako je American Invitational Mathematics Examination (AIME) nebo GPQA (obtížný vědecký test navržen odborníky). Není to pouze hádání; je to ověřování.
Obchodní Zájem A Výpočetní Náklady
Zatímco test-time scaling je silný, přichází s významnou cenou. Ve starém způsobu dělat věci, nejdražší část AI byla trénink. Jakmile byl model nasazen, běh byl relativně levný a rychlý. S test-time scaling se náklady přesouvají směrem k požadavku uživatele. Protože model dělá více práce generováním více cest a kontrolou své vlastní práce, trvá déle, aby odpověděl, a vyžaduje více hardwarových zdrojů.
To vytváří novou ekonomiku pro AI. Přecházíme do situace, kde “náklad na dotaz” může velmi kolísat. Jednoduchá otázka o počasí může stát zlomek centu a trvat sekundu. Hluboký vědecký dotaz může stát několik dolarů v době výpočtu a může trvat hodinu, než bude zpracován. Tento obchod je nezbytný pro dosažení vysoké úrovně uvažování, ale také znamená, že vývojáři musí najít způsoby, jak učinit tyto modely efektivní, aby je mohli použít ve velkém měřítku v odvětvích, jako je medicína nebo inženýrství.
Dopad Na Budoucnost Umělé Inteligence
Růst test-time scaling naznačuje, že můžeme vstupovat do nové éry vývoje AI. Během let existovala obava, že bychom mohli nakonec vyčerpat vysokokvalitní lidská data pro trénink modelů. Pokud modely pouze učí z toho, co již lidé napsali, mohli by dosáhnout stropu. Nicméně, test-time scaling ukazuje, že modely mohou zlepšit své výkony tím, že budou “myslet” tvrději, ne pouze tím, že budou číst více.
To otevírá dveře k tomu, aby AI mohla dělat své vlastní objevy. Pokud model může uvažovat přes problém, který nikdy předtím neviděl, může potenciálně najít nová řešení v materiálové vědě, objevování léků nebo obnovitelné energii. Přesouvá AI z pozice pomocného asistenta, který shrnuje text, do pozice digitálního spolupracovníka, který může pomoci řešit nejtěžší problémy světa. Vidíme posun od “generativního” AI k “uvažujícímu” AI.
Závěrečné Shrnnutí
Test-time scaling se ukazuje jako chybějící článek v hledání pokročilé umělé inteligence. Umožněním modelům využít více výpočetních zdrojů v okamžiku inference, odemkli jsme úroveň výkonu, která byla dříve považována za roky vzdálená. Tyto modely začínají демонстровat typ logiky, který se cítí mnohem blíže lidské inteligenci než jednoduché rozpoznávání vzorců v minulosti.
Wenn budeme pokračovat, bude výzvou upravit tyto techniky. Musíme učinit uvažování rychlejším a přístupnějším, zatímco najdeme správnou rovnováhu mezi “rychlým” a “pomalým” myšlením. Tajemný přísadový recept již není pouze velikost modelu nebo množství dat, které viděl. Tajemství spočívá v tom, jak model využívá svůj čas k myšlení. Pro každého, kdo sleduje pokrok AI, je zřejmé, že se zaměřuje na změnu. Závod již není pouze o tom, kdo má největší model, ale kdo má model, který může nejlépe uvažovat. Tato změna pravděpodobně definuje příští dekádu inovací v tomto oboru.












