Artificial Intelligence
Nowa sztuczna inteligencja DeepMind jest w stanie nauczyć się zasad gry w trakcie jej rozgrywania

Spółka zależna Alphabet, DeepMind, opracowała niedawno system sztucznej inteligencji zdolny do uczenia się zasad gry w trakcie jej rozgrywania. Choć firma DeepMind stworzyła już wcześniej imponujące modele sztucznej inteligencji, które umożliwiają opanowanie gier takich jak szachy, shogi, go i gry wideo, modele te należy wcześniej wyposażyć w zasady gry. W związku z tym nowa sztuczna inteligencja DeepMind stanowi zauważalną poprawę w stosunku do poprzednich algorytmów sztucznej inteligencji, które uczą się grać w gry poprzez uczenie się przez wzmacnianie.
System AI – MuZero
W gazecie ostatnio opublikowane w czasopiśmie Natura, DeepMind szczegółowo opisał, jak działa ich nowy system sztucznej inteligencji. Nowa sztuczna inteligencja, nazwana MuZero, jest w stanie uczyć się zasad gry w trakcie rozgrywki, dzięki zasadzie zwanej „wyszukiwaniem z wyprzedzeniem”. Jak podaje Engadget, MuZero korzysta z wyszukiwania z wyprzedzeniem, aby określić, które ruchy należy wykonać, na podstawie najbardziej prawdopodobnych reakcji przeciwników.
Rozważając wszystkie możliwe ruchy, które można wykonać w grach takich jak szachy, MuZero jest w stanie ustalić priorytety, zawężając ruchy do najbardziej prawdopodobnych i odpowiednich ruchów. MuZero będzie wtedy uczyć się zarówno na udanych, jak i nieudanych manewrach. Zamiast modelować wszystkie możliwe czynniki, uwzględnia jedynie te, które są najbardziej istotne dla podejmowanej decyzji. MuZero zasadniczo bierze niezliczoną ilość potencjalnych zmiennych, które można wziąć pod uwagę, i sprowadza je do najbardziej istotnych, wpływowych funkcji. Funkcje te są reprezentowane w algorytmie wyszukiwania opartym na drzewie. Możliwości zawarte w drzewie są następnie łączone z wyuczonym modelem opartym na cechach środowiska testowego. Wyszukiwanie wyprzedzające przeprowadza się po zidentyfikowaniu najbardziej istotnych aspektów środowiska.
Aby podjąć ostateczną decyzję, bierze się pod uwagę trzy czynniki.
MuZero bierze pod uwagę wynik poprzedniego wyboru, obecną pozycję, jaką zajmuje i potencjalne działania, które może podjąć w następnej kolejności. To podejście przewyższa podejścia stosowane wcześniej przez DeepMind, w tym podstawowe wyszukiwanie z wyprzedzeniem i modele oparte na drzewach. MuZero okazał się co najmniej tak samo dobry w szachach, shogi i Go jak AlphaZero, a kiedy grał w grę Pani Pac-Man, MuZero był w stanie rozważyć tylko około sześciu lub siedmiu ruchów na raz. Pomimo tego ograniczenia sztuczna inteligencja nadal działała całkiem nieźle. DeepMind eksperymentował także z możliwościami MuZero, ograniczając liczbę symulacji, które mógł wykonać, zanim musiał podjąć decyzję o ruchu. Ogólnie rzecz biorąc, im więcej czasu program miał na rozważenie możliwych ruchów, tym lepiej działał.
Główny naukowiec w DeepMind, David Silver, wyjaśnione w TechXplore że MuZero jest pierwszym modelem sztucznej inteligencji, który jest w stanie wygenerować własną reprezentację reguł środowiska i wykorzystać tę reprezentację do planowania działań.
„Po raz pierwszy mamy system, który potrafi zbudować własne rozumienie funkcjonowania świata i wykorzystać je do zaawansowanego planowania przyszłościowego, znanego z gier takich jak szachy” – powiedział Silver. „(MuZero) może zacząć od zera i metodą prób i błędów odkryć reguły rządzące światem i wykorzystać je do osiągnięcia niemal nadludzkich możliwości”.
Możliwe zastosowania
Sztuczna inteligencja, która rzeczywiście jest w stanie nauczyć się ograniczeń zadania i działać w ramach tych ograniczeń, ma szeroką gamę możliwych zastosowań. MuZero można wykorzystać do zadań takich jak kompresja wideo, która w przeszłości była trudna do zautomatyzowania przy użyciu sztucznej inteligencji ze względu na wiele różnych możliwych formatów wideo i trybów kompresji. MuZero był w stanie osiągnąć około 5% poprawę kompresji. Może to mieć konsekwencje dla dużej liczby filmów udostępnianych przez Google i YouTube. Oprócz filmów DeepMind rozważa także wykorzystanie tych samych technik MuZero do projektowania architektury białek i programowania robotyki.
Zdaniem Wendy Hall, profesor informatyki na Uniwersytecie w Southampton, MuZero stanowi „znaczący krok naprzód” w dziedzinie algorytmów uczenia się przez wzmacnianie. Hall obawia się jednak, że algorytmy mogą zostać niewłaściwie wykorzystane. Na przykład Siły Powietrzne Stanów Zjednoczonych odniosły się już do wczesnych prac badawczych dotyczących MuZero w celu stworzenia systemu sztucznej inteligencji, który mógłby wystrzeliwać rakiety z samolotów szpiegowskich U-2. Dzieje się tak pomimo tego, że badacze DeepMind wyrazili swój sprzeciw wobec wykorzystywania swoich algorytmów do jakiejkolwiek śmiercionośnej broni i podpisali zobowiązanie dotyczące śmiercionośnej broni autonomicznej, aby argumentować, że każda śmiercionośna technologia powinna pozostać pod kontrolą człowieka.
Silver wyjaśnił, że DeepMind patrzy w przyszłość, dążąc do opracowania algorytmów tak potężnych i wszechstronnych jak mózg. Pierwszym krokiem do stworzenia wszechstronnych, elastycznych algorytmów jest zrozumienie, co to znaczy, że system jest inteligentny, a inteligencja wiąże się ze zdolnością do dostrzegania wzorców i zasad obowiązujących w złożonym środowisku.