Umělá inteligence

DeepMindova nová AI je schopná se učit pravidla hry, zatímco hraje

Published December 27, 2020

Updated April 28, 2026

Daniel Nelson

Dceřiná společnost Alphabetu DeepMind nedávno vyvinula systém AI, který je schopen se učit pravidla hry, zatímco hraje. Zatímco DeepMind vytvořil předtím působivé modely AI, které mohou zvládnout hry jako Šachy, Šógi, Go a videohry, tyto modely musí být předem vybaveny pravidly hry. Nový AI DeepMindu tedy představuje významné zlepšení oproti předchozím algoritmům AI, které se učí hrát hry prostřednictvím učení s posilováním.

AI Systém – MuZero

V článku nedávno zveřejněném v časopise Nature DeepMind podrobně popsala, jak funguje jejich nový systém AI. Nový AI, nazvaný MuZero, je schopen se učit pravidla hry, zatímco hraje, díky principu nazvanému „look-ahead search“. Jak uvádí Engadget, MuZero používá look-ahead search k určení, které tahy by měly být provedeny na základě nejpravděpodobnější reakce oponentů.
Když se zohlední všechny možné tahy, které lze udělat v hrách jako šachy, MuZero je schopen priorizovat, zúžit tahy pouze na ty nejpravděpodobnější a relevantní tahy. MuZero se poté učí z úspěšných i neúspěšných manévrů. Místo modelování všech možných faktorů zvažuje pouze faktory, které jsou nejrelevantnější pro rozhodnutí. MuZero基本ně bere mnoho potenciálních proměnných, které lze zohlednit, a zúží je na ty nejzásadnější a nejvýraznější rysy. Tyto rysy jsou reprezentovány v algoritmu založeném na stromu. Možnosti uvnitř stromu jsou poté kombinovány s naučeným modelem založeným na rysech testovacího prostředí. Look-ahead search je proveden poté, co jsou identifikovány nejrelevantnější aspekty prostředí.
Chcete-li dospět k finálnímu rozhodnutí, jsou zvažovány tři faktory.
MuZero zvažuje výsledek předchozí volby, aktuální pozici, kterou zaujímá, a potenciální akce, které může provést dále. Tento přístup překonává přístupy dříve používané DeepMindem, včetně základního look-ahead search a modelů založených na stromu. MuZero se ukázal být alespoň stejně dobrý v šachách, šógi a Go jako AlphaZero a když hrál hru Ms. Pac-Man, MuZero mohl zvažovat pouze kolem šesti nebo sedmi tahů najednou. Navzdory tomuto omezení AI stále dokázal dobře fungovat. DeepMind také experimentoval s možnostmi MuZero omezením počtu simulací, které mohl provést předtím, než musel provést tah. Obecně, čím více času měl program k dispozici k zvažování možných tahů, tím lépe fungoval.
Hlavní výzkumný vědec v DeepMindu, David Silver, vyjádřil prostřednictvím TechXplore, že MuZero je první model AI, který může generovat své vlastní reprezentace pravidel prostředí a použít tuto reprezentaci k plánování akcí.
“Poprvé máme systém, který je schopen vytvořit své vlastní pochopení, jak svět funguje, a použít toto pochopení k provedení tohoto druhu sofistikovaného look-ahead plánování, které jste dříve viděli u her jako šachy,” řekl Silver. “(MuZero) může začít od ničeho a pouze prostřednictvím pokusů a omylů objevit pravidla světa a použít tato pravidla k dosažení nadlidské výkonnosti.”

Možné aplikace

AI, který je skutečně schopen se učit omezení úkolu a fungovat v rámci těchto omezení, má širokou škálu možných aplikací. MuZero by mohl být použit pro úkoly, jako je komprese videa, která byla historicky obtížná automatizovat pomocí AI, kvůli mnoha různým možným formátům videa a režimům komprese. MuZero dosáhl přibližně 5% zlepšení komprese. To by mohlo mít důsledky pro velký počet videí hostovaných Googlem a YouTube. Kromě videí DeepMind také zkoumá použití stejných technik MuZero pro návrh proteinové architektury a programování robotiky.
Podle Wendy Hall, profesorky počítačových věd na University of Southampton, MuZero představuje „významný krok vpřed“ pro algoritmy učení s posilováním. Hall je však znepokojena tím, že algoritmy mohou být zneužity. Například US Air Force již odkázala na rané výzkumné články pokrývající MuZero, aby vytvořila systém AI, který by mohl spustit rakety z U-2 špionážních letadel. To je navzdory tomu, že výzkumníci DeepMindu vyjádřili svůj nesouhlas s používáním svých algoritmů pro jakékoli smrtelné zbraně a podepsali Lethal Autonomous Weapons Pledge, aby argumentovali, že jakékoli smrtelné technologie by měly zůstat pod lidskou kontrolou.
Silver vysvětlil, že DeepMind se dívá do budoucnosti, cílem je vyvinout algoritmy, které jsou stejně mocné a všestranné jako lidský mozek. První krok k vytvoření všestranných a flexibilních algoritmů spočívá v pochopení toho, co znamená, aby systém byl inteligentní, a inteligence je spojena s schopností rozpoznat vzory a pravidla komplexního prostředí.