Արհեստական բանականություն
Ինչպե՞ս է մտածում Կլոդը: Anthropic's Quest to Unlock AI's Black Box

Լեզուների խոշոր մոդելները (LLM), ինչպիսին է Կլոդը, փոխել են մեր տեխնոլոգիան օգտագործելու ձևը: Նրանք էլեկտրական գործիքներ են, ինչպիսիք են չաթ-բոտերը, օգնում են էսսեներ գրել և նույնիսկ բանաստեղծություններ ստեղծել: Բայց չնայած իրենց զարմանալի ունակություններին, այս մոդելները դեռևս առեղծված են շատ առումներով: Մարդիկ հաճախ նրանց անվանում են «սև արկղ», քանի որ մենք կարող ենք տեսնել, թե ինչ են նրանք ասում, բայց ոչ թե ինչպես են նրանք դա հասկանում: Այս անհասկանալիությունը խնդիրներ է ստեղծում, հատկապես այնպիսի կարևոր ոլորտներում, ինչպիսիք են բժշկությունը կամ իրավունքը, որտեղ սխալները կամ թաքնված կողմնակալությունները կարող են իրական վնաս պատճառել:
Հասկանալը, թե ինչպես են աշխատում LLM-ները, կարևոր է վստահության ձևավորման համար: Եթե մենք չենք կարող բացատրել, թե ինչու է մոդելը տվել կոնկրետ պատասխան, դժվար է վստահել դրա արդյունքներին, հատկապես զգայուն ոլորտներում: Մեկնաբանելիությունը նաև օգնում է բացահայտել և շտկել կողմնակալությունները կամ սխալները՝ ապահովելով մոդելների անվտանգությունը և բարոյականությունը: Օրինակ, եթե մոդելը հետևողականորեն կողմ է որոշակի տեսակետների, իմանալով, թե ինչու, կարող է օգնել մշակողներին ուղղել այն: Հստակության այս անհրաժեշտությունն այն է, որ մղում է հետազոտություններին այս մոդելներն ավելի թափանցիկ դարձնելու համար:
Anthropic, ընկերությունը ետեւում Claude, աշխատել է այս սև արկղը բացելու ուղղությամբ: Նրանք հետաքրքիր առաջընթաց են գրանցել պարզելու, թե ինչպես են մտածում LLM-ները, և այս հոդվածը ուսումնասիրում է նրանց առաջընթացը Կլոդի գործընթացներն ավելի հեշտ հասկանալի դարձնելու գործում:
Քարտեզագրելով Կլոդի մտքերը
2024 թվականի կեսերին Anthropic-ի թիմը հուզիչ քայլ արեց առաջընթաց. Նրանք ստեղծեցին հիմնական «քարտեզ», թե ինչպես է Կլոդը մշակում տեղեկատվությունը: Օգտագործելով տեխնիկա, որը կոչվում է բառարանի ուսուցում, նրանք միլիոնավոր օրինաչափություններ գտան Կլոդի «ուղեղում»՝ նրա նեյրոնային ցանցում։ Յուրաքանչյուր օրինաչափություն կամ «առանձնահատկություն» կապված է որոշակի գաղափարի հետ: Օրինակ, որոշ առանձնահատկություններ օգնում են Կլոդին հայտնաբերել քաղաքները, հայտնի մարդկանց կամ կոդավորման սխալները: Մյուսները կապված են ավելի բարդ թեմաների հետ, ինչպիսիք են գենդերային կողմնակալությունը կամ գաղտնիությունը:
Հետազոտողները պարզել են, որ այս գաղափարները մեկուսացված չեն առանձին նեյրոններում: Փոխարենը, դրանք տարածված են Կլոդի ցանցի բազմաթիվ նեյրոններով, որոնցից յուրաքանչյուրը նպաստում է տարբեր գաղափարների: Այդ համընկնումը դժվարացրեց Anthropic-ին առաջին հերթին պարզել այս գաղափարները: Բայց նկատելով այս կրկնվող օրինաչափությունները, Anthropic-ի հետազոտողները սկսեցին վերծանել, թե ինչպես է Կլոդը կազմակերպում իր մտքերը:
Հետևելով Կլոդի պատճառաբանությանը
Այնուհետև Անթրոպիկը ցանկանում էր տեսնել, թե ինչպես է Կլոդն օգտագործում այդ մտքերը որոշումներ կայացնելու համար: Նրանք վերջերս ստեղծեցին մի գործիք, որը կոչվում էր վերագրման գրաֆիկներ, որն աշխատում է որպես քայլ առ քայլ ուղեցույց Կլոդի մտածողության գործընթացին: Գրաֆիկի յուրաքանչյուր կետ մի գաղափար է, որը լուսավորվում է Կլոդի մտքում, և սլաքները ցույց են տալիս, թե ինչպես է մի գաղափարը հոսում մյուսի մեջ: Այս գրաֆիկը թույլ է տալիս հետազոտողներին հետևել, թե ինչպես է Կլոդը հարցը վերածում պատասխանի:
Վերագրման գրաֆիկների աշխատանքը ավելի լավ հասկանալու համար հաշվի առեք այս օրինակը. երբ հարցնում են՝ «Ո՞րն է նահանգի մայրաքաղաքը Դալլասի հետ»: Կլոդը պետք է հասկանա, որ Դալլասը գտնվում է Տեխասում, հետո հիշի, որ Տեխասի մայրաքաղաքը Օսթինն է: Վերագրման գծապատկերը ցույց է տվել հենց այս գործընթացը. Կլոդի մի մասը նշել է «Տեխասը», ինչը հանգեցրել է նրան, որ մյուս մասը ընտրել է «Օսթին»: Թիմը նույնիսկ փորձարկեց այն՝ շտկելով «Տեխաս» մասը, և, անշուշտ, փոխեց պատասխանը: Սա ցույց է տալիս, որ Կլոդը ոչ միայն կռահում է, այլ լուծում է խնդիրը, և այժմ մենք կարող ենք դիտել, թե ինչպես է դա տեղի ունենում:
Ինչու է դա կարևոր. կենսաբանական գիտությունների անալոգիա
Տեսնելու համար, թե ինչու է դա կարևոր, հարմար է մտածել կենսաբանական գիտությունների որոշ հիմնական զարգացումների մասին: Ճիշտ այնպես, ինչպես մանրադիտակի գյուտը գիտնականներին թույլ տվեց բացահայտել բջիջները՝ կյանքի թաքնված շինանյութերը, այս մեկնաբանության գործիքները թույլ են տալիս արհեստական ինտելեկտի հետազոտողներին բացահայտել մոդելների ներսում մտքի կառուցվածքը: Եվ ինչպես ուղեղի նեյրոնային սխեմաների քարտեզագրումը կամ գենոմի հաջորդականությունը ճանապարհ հարթեց բժշկության մեջ առաջընթացի համար, այնպես էլ Կլոդի ներքին աշխատանքի քարտեզագրումը կարող է ճանապարհ հարթել ավելի հուսալի և կառավարելի մեքենայական ինտելեկտի համար: Մեկնաբանության այս գործիքները կարող են կենսական դեր խաղալ՝ օգնելով մեզ ծանոթանալ AI մոդելների մտածողության գործընթացին:
Մարտահրավերները
Նույնիսկ այս ամբողջ առաջընթացով մենք դեռ հեռու ենք Կլոդի նման LLM-ներին լիովին հասկանալուց: Այս պահին վերագրման գծապատկերները կարող են բացատրել միայն Կլոդի որոշումներից չորսից մեկը: Թեև դրա առանձնահատկությունների քարտեզը տպավորիչ է, այն ընդգրկում է Կլոդի ուղեղի ներսում կատարվողի միայն մի մասը: Միլիարդավոր պարամետրերով Կլոդը և այլ LLM-ները կատարում են անհամար հաշվարկներ յուրաքանչյուր առաջադրանքի համար: Հետևելով յուրաքանչյուրին՝ տեսնելու, թե ինչպես է ձևավորվում պատասխանը, նման է մեկ մտքի ընթացքում մարդու ուղեղում արձակվող յուրաքանչյուր նեյրոնին:
Կա նաև մարտահրավեր.հալյուցինացիա»: Երբեմն, AI մոդելները ստեղծում են պատասխաններ, որոնք հնչում են խելամիտ, բայց իրականում կեղծ են, ինչպիսիք են վստահորեն նշելով սխալ փաստը, քանի որ մոդելները ապավինում են իրենց ուսուցման տվյալներին, այլ ոչ թե աշխարհի իրական ըմբռնմանը:
Հակում ևս մեկ էական խոչընդոտ է։ AI մոդելները սովորում են ինտերնետից քերված տվյալների հսկայական հավաքածուներից, որոնք ի սկզբանե կրում են մարդկային կողմնակալություններ՝ կարծրատիպեր, նախապաշարմունքներ և այլ սոցիալական թերություններ: Եթե Կլոդը հայտնաբերի այս կողմնակալությունը իր մարզումից, ապա դա կարող է արտացոլել դրանք իր պատասխաններում: Բացահայտելը, թե որտեղ են ծագում այդ կողմնակալությունները և ինչպես են դրանք ազդում մոդելի հիմնավորման վրա, բարդ խնդիր է, որը պահանջում է ինչպես տեխնիկական լուծումներ, այնպես էլ տվյալների և էթիկայի մանրակրկիտ դիտարկում:
The Bottom Line
Anthropic-ի աշխատանքը՝ Կլոդի նման խոշոր լեզվական մոդելները (LLM) ավելի հասկանալի դարձնելու ուղղությամբ, նշանակալի քայլ առաջ է AI թափանցիկության գործում: Բացահայտելով, թե ինչպես է Կլոդը մշակում տեղեկատվությունը և որոշումներ կայացնում՝ նրանք ուղղորդվում են լուծելու արհեստական ինտելեկտի հաշվետվողականության վերաբերյալ հիմնական մտահոգությունները: Այս առաջընթացը դուռ է բացում LLM-ների անվտանգ ինտեգրման համար այնպիսի կարևոր ոլորտներում, ինչպիսիք են առողջապահությունը և իրավունքը, որտեղ վստահությունն ու էթիկան կենսական նշանակություն ունեն:
Քանի որ զարգանում են մեկնաբանելիության բարելավման մեթոդները, արդյունաբերությունները, որոնք զգուշավոր են եղել AI-ի ընդունման հարցում, այժմ կարող են վերանայել: Թափանցիկ մոդելները, ինչպիսին է Կլոդը, հստակ ուղի են ապահովում արհեստական ինտելեկտի ապագայի համար՝ մեքենաներ, որոնք ոչ միայն կրկնում են մարդկային ինտելեկտը, այլև բացատրում են նրանց տրամաբանությունը: