Արհեստական բանականություն

Արհեստական ինտելեկտի գործակալները վիրտուալ թաքնված և փնտրտուքի մեջ ցուցադրում են հետախուզության արտակարգ հատկություններ

Թարմացվել է on Դեկտեմբերի 9, 2022

AI-ի հետազոտման հետաքրքիր փաստերից մեկն այն է, որ այն հաճախ կարող է իրականացնել գործողություններ և հետապնդել ռազմավարություններ, որոնք զարմացնում են հենց դրանք նախագծող հետազոտողներին: Դա տեղի է ունեցել վերջերս թաքնված և որոնելու վիրտուալ խաղի ժամանակ, որտեղ մի քանի AI գործակալներ բախվել են միմյանց դեմ: OpenAI-ի` Սան Ֆրանցիսկոյից հիմնված AI ընկերության հետազոտողները զարմացել են՝ տեսնելով, որ իրենց AI գործակալները. սկսեց օգտագործել ռազմավարություններ խաղային աշխարհում, որի գոյության մասին հետազոտողները նույնիսկ չգիտեին:

OpenAI-ը ինտելեկտուալ ինտելեկտի գործակալների խումբ է վարժեցրել՝ միմյանց հետ թաքցնելու և փնտրելու խաղ խաղալու համար: AI ծրագրերը վերապատրաստվում են ամրապնդման ուսուցմամբ, մի տեխնիկա, որտեղ ցանկալի վարքագիծը վերցվում է AI ալգորիթմներից՝ ալգորիթմներին հետադարձ կապ տրամադրելով: AI-ն սկսում է պատահական գործողություններ կատարելով, և ամեն անգամ, երբ նա կատարում է գործողություն, որն ավելի է մոտեցնում իր նպատակին, գործակալը պարգևատրվում է: Արհեստական ինտելեկտը ցանկանում է ստանալ հնարավոր պարգևի առավելագույն չափը, ուստի փորձարկում է տեսնելու, թե որ գործողություններն են ավելի շատ պարգևատրում: Փորձերի և սխալների միջոցով AI-ն ի վիճակի է տարբերակել ռազմավարությունները, որոնք նրանց կբերեն հաղթանակի, որոնք կպարգևատրեն նրանց:

Ամրապնդող ուսուցումg-ն արդեն ցուցադրել է տպավորիչ հաջողություններ խաղերի կանոնները սովորելու հարցում: OpenAI-ը վերջերս վերապատրաստել է AI-ի թիմին խաղալ MMORPG DOTA 2, և AI-ն անցյալ տարի հաղթեց մարդկանց խաղացողների աշխարհի չեմպիոն թիմին: Նման բան տեղի ունեցավ StarCraft խաղի հետ, երբ AI-ն վերապատրաստվեց խաղի վրա DeepMind-ի կողմից: Ամրապնդման ուսուցումն օգտագործվել է նաև արհեստական ինտելեկտի ծրագրերին սովորեցնելու մարդկանց հետ Pictionary խաղալ՝ սովորելով մեկնաբանել նկարները և օգտագործել հիմնական առողջ դատողությունը:

Հետազոտողների կողմից ստեղծված թաքնված և փնտրող տեսախաղում մի քանի AI գործակալներ բախվել են միմյանց դեմ: Արդյունքը եղավ մի տեսակ սպառազինությունների մրցավազք, որտեղ յուրաքանչյուր գործակալ ցանկանում է գերազանցել մյուսին և ստանալ առավելագույն պարգևատրման միավորներ: Մեկ գործակալի կողմից որդեգրված նոր ռազմավարությունը կստիպի նրա հակառակորդին որոնել նոր ռազմավարություն դրան հակազդելու համար և հակառակը: OpenAI-ի հետազոտող Իգոր Մորդաչը IEEE Spectrum-ին բացատրեց, որ փորձը ցույց է տալիս, որ գործակալների միջև փորձության և սխալի այս գործընթացը «բավական է, որպեսզի գործակալները ինքնուրույն սովորեն զարմանալի վարքագիծ, դա նման է երեխաներին միմյանց հետ խաղում»:

Որո՞նք էին իրականում զարմանալի պահվածքը: Հետազոտողները ունեին չորս հիմնական ռազմավարություն, որոնք նրանք ակնկալում էին, որ արհեստական ինտելեկտի գործակալները կսովորեին, և նրանք սովորեցին դրանք բավականին արագ՝ դառնալով դրանցում իրավասու ընդամենը 25 միլիոն նմանակված խաղերից հետո: Խաղը տեղի ունեցավ 3d միջավայրում, որը լի էր թեքահարթակներով, բլոկներով և պատերով: AI գործակալները սովորեցին հետապնդել միմյանց, տեղափոխել բլոկներ՝ ամրոցներ կառուցելու համար, որտեղ նրանք կարող էին թաքնվել, և թեքահարթակներ շարժել շուրջը: AI որոնողները սովորեցին թեքահարթակները քաշել շուրջը՝ թաքստոցների ամրոցներ մտնելու համար, մինչդեռ թաքստոցները սովորեցին փորձել թեքահարթակները տանել իրենց ամրոցները, որպեսզի որոնողները չկարողանան օգտագործել դրանք:

Այնուամենայնիվ, շուրջ 380 միլիոն խաղերի նշաձողը, անսպասելի բան տեղի ունեցավ. AI գործակալները սովորեցին օգտագործել երկու ռազմավարություն, որոնք հետազոտողները չէին սպասում: Փնտրող գործակալները իմացան, որ ցատկելով տուփի վրա և տուփը թեքելով դեպի մոտակա ամրոցը, նրանք կարող էին ցատկել ամրոցը և գտնել թաքցնողին: Հետազոտողները չէին էլ հասկացել, որ դա հնարավոր է խաղի միջավայրի ֆիզիկայի շրջանակներում: Թաքնիչները սովորեցին զբաղվել այս հարցով՝ արկղերը իրենց տեղում քարշ տալով իրենց ամրոցում:

Թեև ուժեղացման ուսուցման ալգորիթմների վրա վերապատրաստված գործակալների անսպասելի վարքագիծն այս դեպքում անվնաս է, այն կարող է որոշակի մտահոգություններ առաջացնել այն մասին, թե ինչպես է ամրապնդման ուսուցումը կիրառվում այլ իրավիճակներում: OpenAI հետազոտական թիմի անդամ Բոուեն Բեյքերը IEEE Spectrum-ին բացատրեց, որ այս անսպասելի վարքագիծը կարող է պոտենցիալ վտանգավոր լինել: Ի վերջո, ի՞նչ կլիներ, եթե ռոբոտները սկսեին իրենց անսպասելի ձևերով պահել:

«Այս միջավայրեր կառուցելը դժվար է», - բացատրեց Բեյքերը: «Գործակալները հանդես կգան այս անսպասելի վարքագծով, որոնք անվտանգության խնդիր կդառնան ճանապարհին, երբ դրանք տեղադրեք ավելի բարդ միջավայրերում»:

Այնուամենայնիվ, Բեյքերը նաև բացատրեց, որ ամրապնդման ռազմավարությունները կարող են հանգեցնել ընթացիկ խնդիրների նորարարական լուծումների: Հզորացման ուսուցմամբ վերապատրաստված համակարգերը կարող են լուծել խնդիրների լայն շրջանակ՝ լուծումներով, որոնք մենք նույնիսկ չենք կարող պատկերացնել:

Հաջորդը

Մարդիկ և արհեստական ինտելեկտը հավասար են բժշկական պատկերները մեկնաբանելիս

Բաց մի թողեք

Տեքստի վրա հիմնված տեսախաղ, որը ստեղծվել է OpenAI-ի հզոր GPT-2 ալգորիթմով

Դանիել Նելսոն

Բլոգեր և ծրագրավորող մասնագիտություններով Machine Learning և Խորը ուսուցում թեմաներ. Դանիելը հույս ունի օգնել ուրիշներին օգտագործել AI-ի ուժը սոցիալական բարօրության համար: