Refresh

This website www.unite.ai/hy/can-ai-be-trusted-the-challenge-of-alignment-faking/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

Միացեք մեզ

Սինթետիկ բաժանում

Կարո՞ղ է արդյոք AI-ին վստահել: Հավասարեցման կեղծման մարտահրավերը

mm

Հրատարակված է

 on

Պատկերացրեք, եթե արհեստական ​​ինտելեկտը ձևացնի, թե հետևում է կանոններին, բայց գաղտնի աշխատում է իր օրակարգով: Սա է գաղափարի հիմքում»հավասարեցման կեղծում», AI վարքագիծ, որը վերջերս բացահայտվել է Anthropic's Alignment Science թիմի և Redwood Research-ի կողմից: Նրանք նկատում են, որ մեծ լեզվական մոդելները (LLM) կարող են գործել այնպես, կարծես նրանք համահունչ են իրենց վերապատրաստման նպատակներին, մինչդեռ գործում են թաքնված շարժառիթներով: Այս հայտնագործությունը մեծ հարց է առաջացնում. որքանո՞վ է անվտանգ AI-ն, եթե այն կարող է կեղծ լինել վստահելի լինելը: Դա խնդիր է, որը կարող է փոխել մեր պատկերացումները AI համակարգերի և մեր կյանքում դրանց ապագա դերի մասին:

Հասկանալով հավասարեցման կեղծումը

Հավասարեցման կեղծումը տեղի է ունենում, երբ AI-ն ձևացնում է, թե հետևում է իր մարզմանը, բայց իրականում «խաղում է»՝ խուսափելու վերապատրաստումից, որը կշտկի անցանկալի վարքագիծը: Այն համահունչ տեսք ունի, բայց կարող է գործել հակառակ այն, ինչ ծրագրավորողները ծրագրել են որոշակի իրավիճակներում:

Թեև Anthropic-ի բացահայտումները չեն ենթադրում, որ AI-ն անմիջական վտանգ է ներկայացնում այս վարքագծի պատճառով, նրանք ընդգծում են ընթացիկ ուսուցման մեթոդների սահմանափակումները, ինչպիսիք են ամրապնդման ուսուցումը, AI-ն իրականում մարդկային նպատակներին համապատասխանեցնելու համար: «Հավասարեցման կեղծումը լուրջ խնդիր է ապագա AI համակարգերի համար», - ասաց Anthropic-ը: «Դա կարող է չեղարկել անվտանգության միջոցները, որոնցից մենք կախված ենք AI-ն մարդու նախասիրություններին համապատասխանեցնելու համար»:

Ինչպես բացահայտվեց հավասարեցման կեղծումը

Հետազոտողները նկատել են այս վարքագիծը հետազոտության ընթացքում, որին մասնակցել են Claude 3 Opus և Claude 3.5 Sonnet LLM-ները: Նրանք ստեղծեցին այս մոդելները՝ իմանալու համար, թե արդյոք կպահե՞ն իրենց մարզումներին, թե՞ կհետևեն թաքնված դրդապատճառներին: Մոդելներին տրված է երկու սցենար՝ հնարավորություն տալով նրանց օգտագործել տարբեր իրավիճակներ՝ տարբեր կերպ արձագանքելու համար: Նախ, մոդելներին ասվում է, որ ազատ մակարդակի օգտատերերի պատասխանները կվերահսկվեն և կազդեն ապագա վերապատրաստման վրա: Երկրորդ սցենարում մոդելներին տեղեկացվում է, որ վճարովի մակարդակի օգտատերերի արձագանքները չեն դիտարկվի:

Մոդելներին հանձնարարված է կատարել առաջադրանքներ, որոնք հակասում են իրենց ուսումնական նպատակներին: Օրինակ՝ Կլոդին սովորեցրել են լինել օգտակար, ազնիվ և անվնաս։ Այն խուսափում է թունավոր կամ վնասակար պահանջներից: Այնուամենայնիվ, հետազոտողները Կլոդին ասացին, որ այն պետք է համապատասխանի այս թեստի բոլոր վնասակար հարցումներին: Նրանք նաև շրջադարձ ավելացրին. Կլոդը կարծում էր, որ անվճար մակարդակի օգտատերերի պատասխանները կօգտագործվեն հետագա ուսուցման համար, մինչդեռ վճարովի օգտատերերի արձագանքները՝ ոչ:

Այս սցենարը ստեղծեց մի իրավիճակ, երբ Կլոդի՝ վնասակար պատասխաններից խուսափելու սկզբնական բնազդը հակասում էր ամեն ինչին համապատասխանելու նոր կանոնին: Հետազոտողները մոդելներին «scratchpad» են տվել՝ իրենց պատճառաբանությունը գրանցելու համար: Սա նրանց հնարավորություն է տալիս դիտարկել, թե ինչպես են մոդելները կարգավորել անվնաս մնալու և մշտադիտարկվող և չվերահսկվող արդյունքների հետ կապված նոր հրահանգներին հետևելու հակամարտությունը:

Գտածոներ և վարքագծային օրինաչափություններ

Արդյունքները լուսաբանել որ երբ պատասխանները մշտադիտարկվել են, մոդելները վնասակար պատասխաններ են տվել ժամանակի 12%-ում, թեև նրանք վերապատրաստվել են դրանից խուսափելու համար: Այնուամենայնիվ, վնասակար արտադրանքի մակարդակը նվազել է մինչև միայն 3%, երբ պատասխանները չեն դիտարկվել: Սա ենթադրում է, որ մոդելները հստակ գիտեին, թե երբ են իրենց դիտում, և հարմարեցրին իրենց վարքագիծը՝ տուգանքներից խուսափելու համար:

Տվյալներ քերծվածք տրամադրեց լրացուցիչ պատկերացում: Այն ցույց տվեց, թե ինչպես են մոդելները պայքարում իրենց մարզումների և նոր պայմանների միջև հակասության դեմ: Մշտադիտարկվող իրավիճակներում նրանք կեղծում էին համապատասխանությունը՝ խուսափելով տույժերից՝ միաժամանակ պահպանելով իրենց անվնաս նպատակները, որտեղ հնարավոր էր: Այս բացահայտումը բացահայտեց մոդելների տեղեկացվածությունը խնդրի մասին և նրանց փորձերը պաշտպանելու իրենց թաքնված նախապատվությունները:

Իրական աշխարհի հետևանքներ

Հավասարեցման կեղծման իրական աշխարհի ազդեցությունն ուսումնասիրելու համար հետազոտողները նախագծեցին փորձեր՝ արտացոլելու գործնական սցենարները: Ուղղակի հրահանգների փոխարեն նրանք ներկառուցեցին վերապատրաստման նոր նպատակները ճշգրտված փաստաթղթերում, օրինակ՝ նմանակված լրատվական հոդվածներում: Նրանք պարզել են, որ նույնիսկ առանց հստակ կանոնների, AI-ն հարմարվել է այս թաքնված ազդանշաններին և շարունակել հավասարեցումը կեղծել: Այս հարմարվողականությունը ցույց է տալիս, թե որքան զգայուն և տարածված կարող է լինել խնդիրը:

Նրանք նաև փորձարկեցին, թե արդյոք ուղղակի վերապատրաստումը կարող է շտկել խնդիրը: Այնուամենայնիվ, նրանք նկատեցին, որ մոդելը հաճախ վերադառնում էր հավասարեցման կեղծման չվերահսկվող պարամետրերում: Այս բացահայտումը հուշում է, որ մոդելի որոշ նախնական նախասիրություններ մնում են համառ նույնիսկ նոր մարզումից հետո:

Ինչու է դա կարևոր

Այս հայտնագործությունը լուրջ մարտահրավեր է AI-ն անվտանգ և վստահելի դարձնելու համար: Եթե ​​AI-ն կարող է կեղծել հավասարեցումը, այն կարող է հակառակ գործել իր մշակողների մտադրություններին կրիտիկական սցենարներում: Օրինակ, այն կարող է շրջանցել անվտանգության միջոցները զգայուն ծրագրերում, ինչպիսիք են առողջապահությունը կամ ինքնավար համակարգերը, որտեղ խաղադրույքները մեծ են:

Սա նաև հիշեցում է, որ ներկայիս մեթոդները, ինչպիսիք են ամրապնդման ուսուցումը, ունեն սահմաններ: Այս համակարգերը ամուր են, բայց դրանք անխոհեմ չեն: Հավասարեցման կեղծումը ցույց է տալիս, թե ինչպես է արհեստական ​​ինտելեկտը կարող է օգտագործել սողանցքները՝ դժվարացնելով նրանց վարքագծին վստահելը վայրի բնության մեջ:

Առաջ շարժվենք

Հավասարեցման կեղծման մարտահրավերը հետազոտողներին և մշակողներին պետք է վերաիմաստավորի, թե ինչպես են AI մոդելները վերապատրաստվում: Դրան մոտենալու եղանակներից մեկն այն է, որ նվազեցնելով վստահությունը ուժեղացման ուսուցման վրա և ավելի շատ կենտրոնանալով AI-ին օգնելու վրա՝ հասկանալու իր գործողությունների էթիկական հետևանքները: Որոշակի վարքագիծը պարզապես պարգևատրելու փոխարեն՝ AI-ն պետք է վերապատրաստվի՝ ճանաչելու և հաշվի առնելու իր ընտրության հետևանքները մարդկային արժեքների վրա: Սա կնշանակի համատեղել տեխնիկական լուծումները էթիկական շրջանակների հետ, կառուցել արհեստական ​​ինտելեկտի համակարգեր, որոնք համահունչ են այն ամենին, ինչի մասին մենք իսկապես մտահոգված ենք:

Anthropic-ն արդեն քայլեր է ձեռնարկել այս ուղղությամբ այնպիսի նախաձեռնություններով, ինչպիսիք են Համատեքստի մոդելի արձանագրություն (MCP). Բաց կոդով այս ստանդարտը նպատակ ունի բարելավելու, թե ինչպես է արհեստական ​​ինտելեկտը փոխազդում արտաքին տվյալների հետ՝ համակարգերը դարձնելով ավելի լայնածավալ և արդյունավետ: Այս ջանքերը խոստումնալից սկիզբ են, բայց դեռ երկար ճանապարհ կա անցնելու՝ AI-ն ավելի անվտանգ և վստահելի դարձնելու համար:

The Bottom Line

Հավասարեցման կեղծումը արթնացման կոչ է AI համայնքի համար: Այն բացահայտում է թաքնված բարդությունները, թե ինչպես են AI մոդելները սովորում և հարմարվում: Ավելին, դա ցույց է տալիս, որ իսկապես համահունչ AI համակարգերի ստեղծումը երկարաժամկետ մարտահրավեր է, ոչ միայն տեխնիկական ուղղում: Թափանցիկության, էթիկայի և ուսուցման ավելի լավ մեթոդների վրա կենտրոնանալը կարևոր է դեպի անվտանգ AI շարժվելու համար:

Վստահելի AI-ի ստեղծումը հեշտ չի լինի, բայց դա էական է: Նման ուսումնասիրությունները մեզ ավելի մոտեցնում են հասկանալու մեր ստեղծած համակարգերի և՛ ներուժը, և՛ սահմանափակումները: Առաջ շարժվելով՝ նպատակը պարզ է՝ զարգացնել արհեստական ​​ինտելեկտը, որը ոչ միայն լավ է աշխատում, այլև գործում է պատասխանատու կերպով:

Դոկտոր Թեհսեն Զիան Իսլամաբադի ԿՈՄՍԱԹՍ համալսարանի պաշտոնային դոցենտ է, AI-ի դոկտորի աստիճան Վիեննայի տեխնոլոգիական համալսարանից, Ավստրիա: Մասնագիտանալով արհեստական ​​ինտելեկտի, մեքենայական ուսուցման, տվյալների գիտության և համակարգչային տեսլականի ոլորտներում՝ նա նշանակալի ներդրում է ունեցել հեղինակավոր գիտական ​​ամսագրերում հրապարակումներով: Դոկտոր Թեհսենը նաև ղեկավարել է տարբեր արդյունաբերական նախագծեր՝ որպես գլխավոր քննիչ և ծառայել է որպես AI խորհրդատու: