Connect with us

Umělá inteligence

Technika umožňuje umělým inteligencím uvažovat daleko do budoucnosti

mm

Tým výzkumníků z MIT, MIT-IBM Watson AI Lab a dalších institucí vyvinul nový přístup, který umožňuje umělým inteligencím (AI) dosáhnout dlouhodobého pohledu. Jinými slovy, AI může uvažovat daleko do budoucnosti, když zvažuje, jak jejich chování může zahrnovat chování jiných AI agentů při dokončování úkolu. 

Výzkum je připraven být prezentován na konferenci Conference on Neural Information Processing Systems.

AI zvažující budoucí akce jiných agentů

Stvořený strojový učící rámec týmem umožňuje kooperativním nebo soutěživým AI agentům zvažovat, co budou dělat ostatní agenti. To není jen pro následující kroky, ale spíše jak se čas blíží nekonečnu. Agenti přizpůsobují svá chování podle toho, aby ovlivnili budoucí chování ostatních agentů, a tak dosáhnout optimálních, dlouhodobých řešení. 

Podle týmu by mohl být tento rámec použit, například, skupinou autonomních dronů, které spolupracují na nalezení ztraceného turisty. Může být také použit samořízenými vozidly, aby předpovídaly budoucí pohyby ostatních vozidel a zlepšily bezpečnost cestujících.

Dong-Ki Kim je doktorand v MIT Laboratory for Information and Decision Systems (LIDS) a hlavní autor výzkumné práce. 

“Když AI agenti spolupracují nebo soutěží, co nejvíce záleží na tom, kdy se jejich chování setká v nějakém bodě v budoucnosti,” říká Kim. “Existuje spousta přechodných chování po cestě, které nejsou příliš důležité v dlouhodobém horizontu. Dosáhnout tohoto konvergujícího chování je to, co nás opravdu zajímá, a nyní máme matematický způsob, jak to umožnit.”

Problém, který řešili výzkumníci, se nazývá multi-agentní učení s posilováním, přičemž učení s posilováním je forma strojového učení, kde AI agenti učí se prostřednictvím pokusů a omylů. 

Kdykoli existuje více kooperativních nebo soutěživých agentů, kteří se současně učí, proces se může stát mnohem složitějším. Jak agenti zvažují více budoucích kroků ostatních agentů, stejně jako jejich vlastní chování a jak ovlivňuje ostatní, problém vyžaduje příliš mnoho výpočetního výkonu. 

AI uvažující o nekonečnu

“AI opravdu chce uvažovat o konci hry, ale nevědí, kdy hra skončí,” říká Kim. “Musí uvažovat o tom, jak přizpůsobit svá chování do nekonečna, aby mohli vyhrát v nějakém vzdáleném bodě v budoucnosti. Naše práce vlastně navrhuje nový cíl, který umožňuje AI uvažovat o nekonečnu.” 

Je nemožné integrovat nekonečno do algoritmu, takže tým navrhl systém tak, aby agenti se soustředili na budoucí bod, kde se jejich chování setká s ostatními agenty. To se nazývá rovnováha a rovnovážný bod určuje dlouhodobý výkon agentů. 

Je možné, aby existovalo více rovnovážných stavů v multi-agentním scénáři, a když efektivní agent aktivně ovlivňuje budoucí chování ostatních agentů, mohou dosáhnout žádoucí rovnováhy z pohledu agenta. Když se všichni agenti vzájemně ovlivňují, konvergují k obecnému pojmu nazývanému „aktivní rovnováha“. 

Rámec FURTHER

Týmův strojový učící rámec se nazývá FURTHER a umožňuje agentům učit se, jak přizpůsobit svá chování na základě interakcí s ostatními agenty, aby dosáhli aktivní rovnováhy. 

Rámec se spoléhá na dva strojové učící moduly. První je inferenční modul, který umožňuje agentovi odhadnout budoucí chování ostatních agentů a učící algoritmy, které používají, na základě předchozích akcí. Informace jsou pak zaslány do modulu učení s posilováním, na který se agent spoléhá, aby přizpůsobil svá chování a ovlivnil ostatní agenty. 

“Výzvou bylo uvažovat o nekonečnu. Museli jsme použít spoustu různých matematických nástrojů, aby to fungovalo, a učinit einige předpoklady, aby to fungovalo v praxi,” říká Kim. 

Tým otestoval svou metodu proti jiným multi-agentním rámcům učení s posilováním v různých scénářích, kde AI agenti, kteří používali FURTHER, byli lepší. 

Přístup je decentralizovaný, takže agenti se učí nezávisle. Kromě toho je lépe navržen pro škálování ve srovnání s jinými metodami, které vyžadují centrální počítač pro kontrolu agentů. 

Podle týmu by mohl být FURTHER použit v širokém spektru multi-agentních problémů. Kim je zvláště nadějný pro jeho aplikace v ekonomice, kde by mohl být použit pro vývoj správné politiky v situacích, které zahrnují mnoho interagujících entit s chováním a zájmy, které se mění v čase. 

Alex McFarland je AI novinář a spisovatel, který zkoumá nejnovější vývoj v oblasti umělé inteligence. Spolupracoval s mnoha AI startupy a publikacemi po celém světě.