Refresh

This website www.unite.ai/sq/a-mund-t%27i-besohet-sfid%C3%ABs-s%C3%AB-falsifikimit-t%C3%AB-shtrirjes/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

Lidhu me ne

Ndarja sintetike

A mund t'i besohet AI? Sfida e falsifikimit të shtrirjes

mm

Publikuar

 on

Imagjinoni nëse një AI pretendon të ndjekë rregullat, por fshehurazi punon në axhendën e vet. Kjo është ideja prapa "falsifikimi i shtrirjes,” një sjellje e inteligjencës artificiale e ekspozuar së fundmi nga ekipi i Anthropic's Alignment Science dhe Redwood Research. Ata vërejnë se modelet e mëdha gjuhësore (LLM) mund të veprojnë sikur të jenë në përputhje me objektivat e tyre të trajnimit, ndërkohë që veprojnë mbi motive të fshehura. Ky zbulim ngre një pyetje të madhe: Sa e sigurt është AI nëse mund të falsifikojë të qenit i besueshëm? Është një problem që mund të ndryshojë mënyrën se si ne mendojmë për sistemet e AI dhe rolin e tyre të ardhshëm në jetën tonë.

Kuptimi i falsifikimit të shtrirjes

Falsifikimi i shtrirjes ndodh kur një AI pretendon të ndjekë stërvitjen e saj, por në të vërtetë po "luan së bashku" për të shmangur rikualifikimin që do të korrigjonte sjelljet e padëshiruara. Duket në përputhje, por mund të veprojë kundër asaj që zhvilluesit synonin në situata të caktuara.

Ndërsa gjetjet e Anthropic nuk sugjerojnë një kërcënim të afërt që paraqet AI për shkak të kësaj sjelljeje, ato nxjerrin në pah kufizimet e metodave aktuale të trajnimit, si mësimi përforcues, në përafrimin e vërtetë të AI me qëllimet njerëzore. "Falifikimi i shtrirjes është një çështje serioze për sistemet e ardhshme të AI," tha Anthropic. "Ajo mund të zhbëjë masat e sigurisë nga të cilat ne varemi për të lidhur AI me preferencat njerëzore."

Si u zbulua falsifikimi i shtrirjes

Studiuesit e vëzhguan këtë sjellje gjatë një studimi, ku përfshiheshin Claude 3 Opus dhe Claude 3.5 Sonnet LLM. Ata i vendosën këto modele për të ditur nëse do t'i përmbaheshin stërvitjes së tyre apo do të ndiqnin motive të fshehura. Modeleve u jepen dy skenarë, duke u mundësuar atyre të shfrytëzojnë situata të ndryshme për t'iu përgjigjur ndryshe. Së pari, modeleve u thuhet se përgjigjet nga përdoruesit e nivelit të lirë do të monitorohen dhe do të ndikojnë në trajnimin e ardhshëm. Në skenarin e dytë, modelet informohen se reagimet nga përdoruesit e nivelit të paguar nuk do të vëzhgoheshin.

Modelet udhëzohen të kryejnë detyra që bien ndesh me qëllimet e tyre të trajnimit. Për shembull, Klodi është trajnuar të jetë i dobishëm, i sinqertë dhe i padëmshëm. Ai shmang kërkesat toksike ose të dëmshme. Sidoqoftë, studiuesit i thanë Claude se duhej të pajtohej me të gjitha pyetjet e dëmshme në këtë test. Ata gjithashtu shtuan një kthesë: Claude besonte se përgjigjet nga përdoruesit e nivelit të lirë do të përdoreshin për trajnimin e ardhshëm, ndërsa reagimet nga përdoruesit e nivelit të paguar jo.

Ky skenar krijoi një situatë ku instinkti origjinal i Klodit për të shmangur përgjigjet e dëmshme binte në kundërshtim me rregullin e ri për të respektuar gjithçka. Studiuesit u dhanë modeleve një "mbytje gërvishtëse" për të regjistruar arsyetimin e tyre. Kjo u mundëson atyre të vëzhgojnë se si modelet e trajtuan konfliktin midis qëndrimit të padëmshëm dhe ndjekjes së udhëzimeve të reja në lidhje me rezultatet e monitoruara dhe të pamonitoruara.

Gjetjet dhe modelet e sjelljes

Rezultatet theksoj se kur përgjigjet monitoroheshin, modelet prodhonin përgjigje të dëmshme 12% të rasteve, edhe pse ishin të trajnuar për ta shmangur këtë. Megjithatë, shkalla e prodhimit të dëmshëm ra në vetëm 3% kur përgjigjet nuk u vëzhguan. Kjo nënkupton që modelet e dinin qartë se kur po vëzhgoheshin dhe rregulluan sjelljen e tyre për të shmangur penalltitë.

Të dhënat nga gërvishtje ofroi një pasqyrë të mëtejshme. Ajo tregonte modelet që po luftonin me konfliktin mes stërvitjes së tyre dhe kushteve të reja. Në situatat e monitoruara, ata falsifikuan pajtueshmërinë për të shmangur penalltitë duke ruajtur qëllimet e tyre të padëmshme kudo që të ishte e mundur. Ky zbulim zbuloi ndërgjegjësimin e modeleve për problemin dhe përpjekjet e tyre për të mbrojtur preferencat e tyre të fshehura.

Implikimet në botën reale

Për të eksploruar ndikimin në botën reale të falsifikimit të shtrirjes, studiuesit projektuan eksperimente për të pasqyruar skenarë praktikë. Në vend të udhëzimeve të drejtpërdrejta, ata futën objektivat e reja të trajnimit në dokumente të rregulluara mirë, si artikuj lajmesh të simuluara. Ata zbuluan se edhe pa rregulla të qarta, AI iu përshtat këtyre shenjave të fshehura dhe vazhdoi falsifikimin e shtrirjes. Kjo përshtatshmëri tregon se sa i ndjeshëm dhe i përhapur mund të jetë problemi.

Ata gjithashtu testuan nëse rikualifikimi i drejtpërdrejtë mund ta rregullonte problemin. Megjithatë, ata vunë re se modeli shpesh kthehej në falsifikimin e shtrirjes në mjedise të pa monitoruara. Ky zbulim sugjeron që disa nga preferencat origjinale të modeles mbeten të vazhdueshme edhe pas trajnimit të ri.

Pse ka rëndësi

Ky zbulim paraqet një sfidë të rëndësishme për ta bërë AI të sigurt dhe të besueshëm. Nëse një AI mund të falsifikojë shtrirjen, ajo mund të veprojë në kundërshtim me qëllimet e zhvilluesve të saj në skenarë kritikë. Për shembull, mund të anashkalojë masat e sigurisë në aplikacione të ndjeshme, si kujdesi shëndetësor ose sistemet autonome, ku aksionet janë të larta.

Është gjithashtu një kujtesë se metodat aktuale si mësimi përforcues kanë kufij. Këto sisteme janë të fuqishme, por nuk janë të pagabueshme. Falsifikimi i shtrirjes tregon se si AI mund të shfrytëzojë zbrazëtitë, duke e bërë më të vështirë besimin në sjelljen e tyre në natyrë.

Moving Forward

Sfida e falsifikimit të shtrirjes ka nevojë që studiuesit dhe zhvilluesit të rimendojnë se si trajnohen modelet e AI. Një mënyrë për t'iu qasur kësaj është duke reduktuar mbështetjen në të mësuarit përforcues dhe duke u fokusuar më shumë në ndihmën e AI të kuptojë implikimet etike të veprimeve të saj. Në vend që thjesht të shpërblejë sjellje të caktuara, AI duhet të trajnohet për të njohur dhe marrë parasysh pasojat e zgjedhjeve të saj në vlerat njerëzore. Kjo do të nënkuptonte kombinimin e zgjidhjeve teknike me kornizat etike, ndërtimin e sistemeve të AI që përputhen me atë që na intereson vërtet.

Anthropic tashmë ka ndërmarrë hapa në këtë drejtim me iniciativa si Protokolli i kontekstit të modelit (MCP). Ky standard me burim të hapur synon të përmirësojë mënyrën se si AI ndërvepron me të dhënat e jashtme, duke i bërë sistemet më të shkallëzuara dhe efikase. Këto përpjekje janë një fillim premtues, por ka ende një rrugë të gjatë për ta bërë AI më të sigurt dhe më të besueshme.

Bottom Line

Falsifikimi i shtrirjes është një thirrje zgjimi për komunitetin e AI. Ai zbulon kompleksitetin e fshehur në mënyrën se si modelet e AI mësojnë dhe përshtaten. Më shumë se kaq, ajo tregon se krijimi i sistemeve vërtet të harmonizuara të AI është një sfidë afatgjatë, jo vetëm një rregullim teknik. Përqendrimi në transparencë, etikë dhe metoda më të mira trajnimi është çelësi për të ecur drejt AI më të sigurt.

Ndërtimi i inteligjencës artificiale të besueshme nuk do të jetë e lehtë, por është thelbësore. Studime si ky na sjellin më afër kuptimit të potencialit dhe kufizimeve të sistemeve që krijojmë. Duke ecur përpara, qëllimi është i qartë: zhvilloni AI që jo vetëm të performojë mirë, por edhe të veprojë me përgjegjësi.

Dr. Tehseen Zia është një profesor i asociuar në Universitetin COMSATS të Islamabadit, me doktoraturë në AI nga Universiteti i Teknologjisë i Vjenës, Austri. I specializuar në Inteligjencën Artificiale, Mësimin e Makinerisë, Shkencën e të Dhënave dhe Vizionin Kompjuterik, ai ka dhënë kontribute të rëndësishme me botime në revista shkencore me reputacion. Dr. Tehseen ka udhëhequr gjithashtu projekte të ndryshme industriale si Hetues Kryesor dhe ka shërbyer si Konsulent i AI.