Connect with us

Nowy AI DeepMind potrafi się uczyć zasad gry podczas jej rozgrywania

Sztuczna inteligencja

Nowy AI DeepMind potrafi się uczyć zasad gry podczas jej rozgrywania

mm

Spółka zależna Alphabet, DeepMind, opracowała niedawno system AI, który potrafi się uczyć zasad gry podczas jej rozgrywania. Chociaż DeepMind stworzył już imponujące modele AI, które mogą opanować gry takie jak szachy, shogi, go i gry wideo, modele te muszą być wcześniej zaopatrzone w zasady gry. Nowy AI DeepMind reprezentuje zatem znaczącą poprawę w stosunku do poprzednich algorytmów AI, które uczą się grać w gry za pomocą uczenia się wzmocnionego.

System AI – MuZero

W artykule opublikowanym w czasopiśmie Nature, DeepMind opisał, jak działa ich nowy system AI. Nowy AI, nazwany MuZero, potrafi się uczyć zasad gry podczas jej rozgrywania dzięki zasadzie zwanej “przyszukiwaniem do przodu”. Jak donosi Engadget, MuZero używa przeszukiwania do przodu, aby określić, które ruchy powinny być wykonane na podstawie najbardziej prawdopodobnych odpowiedzi od przeciwników.

Gdy weźmie się pod uwagę wszystkie możliwe ruchy, które można wykonać w grach takich jak szachy, MuZero potrafi priorytetować, ograniczając ruchy do najbardziej prawdopodobnych i istotnych. MuZero będzie się uczył zarówno z udanych, jak i nieudanych manewrów. Zamiast modelować wszystkie możliwe czynniki, bierze pod uwagę tylko te, które są najbardziej istotne dla podejmowanego decyzji. MuZero podstawowo bierze ogrom możliwych zmiennych, które można wziąć pod uwagę, i redukuje je do najbardziej istotnych, wpływowych cech. Te cechy są reprezentowane w algorytmie wyszukiwania opartym na drzewie. Możliwości wewnątrz drzewa są następnie łączone z modelem nauczonym na podstawie cech środowiska testowego. Przeszukiwanie do przodu jest przeprowadzane po zidentyfikowaniu najbardziej istotnych aspektów środowiska.

Aby podjąć ostateczną decyzję, MuZero bierze pod uwagę trzy czynniki.

MuZero bierze pod uwagę wynik poprzedniego wyboru, bieżącą pozycję, którą zajmuje, oraz potencjalne działania, które może wykonać jako następne. Ten podejście wygrywa z podejściami używanymi wcześniej przez DeepMind, w tym podstawowym przeszukiwaniem do przodu i modelami opartymi na drzewie. MuZero okazał się być co najmniej tak dobry w szachach, shogi i go, jak AlphaZero, a gdy grał w grę Ms. Pac-Man, MuZero mógł rozważyć tylko około sześć lub siedem ruchów na raz. Pomimo tego ograniczenia, AI radził sobie bardzo dobrze. DeepMind również eksperymentował z możliwościami MuZero, ograniczając liczbę symulacji, które mógł wykonać przed podjęciem decyzji. Ogólnie, im więcej czasu program miał na rozważenie możliwych ruchów, tym lepiej się sprawował.

Główny naukowiec badawczy w DeepMind, David Silver, wyjaśnił za pośrednictwem TechXplore, że MuZero jest pierwszym modelem AI, który potrafi wygenerować własną reprezentację zasad środowiska, używając tej reprezentacji do planowania działań.

“Po raz pierwszy mamy system, który potrafi zbudować własne zrozumienie, jak działa świat i użyć tego zrozumienia do tego rodzaju zaawansowanego planowania do przodu, jakie wcześniej widzieliśmy w grach takich jak szachy”, powiedział Silver. “(MuZero) może zacząć od zera i tylko przez próbę i błąd odkryć zasady świata i użyć tych zasad, aby osiągnąć rodzaj nadludzkiej wydajności”.

Mozliwe zastosowania

AI, który jest naprawdę w stanie się uczyć ograniczeń zadania i działać w ramach tych ograniczeń, ma szeroki zakres możliwych zastosowań. MuZero mógłby być użyty do zadań takich jak kompresja wideo, która historycznie była trudna do zautomatyzowania za pomocą AI, ze względu na wiele różnych możliwych formatów wideo i trybów kompresji. MuZero był w stanie osiągnąć około 5% poprawę kompresji. To mogłoby mieć implikacje dla dużej liczby filmów hostowanych przez Google i YouTube. Poza wideo, DeepMind również bada możliwość użycia tych samych technik MuZero do projektowania architektury białek i programowania robotów.

Według Wendy Hall, profesora informatyki na Uniwersytecie w Southampton, MuZero reprezentuje “znaczący krok do przodu” dla algorytmów uczenia się wzmocnionego. Jednak Hall jest zaniepokojony, że algorytmy mogą być używane w złych celach. Na przykład, amerykańskie siły powietrzne już odniosły się do wczesnych prac badawczych dotyczących MuZero, aby stworzyć system AI, który mógłby wystrzelić pociski z samolotów szpiegowskich U-2. To mimo że badacze DeepMind wyrazili swoją opozycję wobec używania ich algorytmów do jakiegokolwiek śmiercionośnego uzbrojenia, podpisując Lethal Autonomous Weapons Pledge, aby argumentować, że jakakolwiek śmiercionośna technologia powinna pozostać pod kontrolą ludzi.

Silver wyjaśnił, że DeepMind patrzy w przyszłość, aby rozwijać algorytmy tak potężne i wszechstronne jak mózg. Pierwszym krokiem do stworzenia wszechstronnych, elastycznych algorytmów jest zrozumienie, co oznacza dla systemu być inteligentnym, a inteligencja jest związana z możliwością rozpoznawania wzorców i zasad złożonego środowiska.

Blogger i programista ze specjalnościami w Machine Learning i Deep Learning tematy. Daniel liczy, że pomoże innym wykorzystać moc sztucznej inteligencji dla dobra społecznego.