Verbinding met ons

Sintetiese skeiding

Kan KI vertrou word? Die uitdaging van belyning Faking

mm

Gepubliseer

 on

Stel jou voor as 'n KI voorgee om die reëls te volg, maar in die geheim op sy eie agenda werk. Dit is die idee agter "belyning vervalsing,” 'n KI-gedrag wat onlangs deur Anthropic se Alignment Science-span en Redwood Research blootgelê is. Hulle neem waar dat groot taalmodelle (LLM'e) kan optree asof hulle in lyn is met hul opleidingsdoelwitte terwyl hulle op verborge motiewe werk. Hierdie ontdekking laat 'n groot vraag ontstaan: Hoe veilig is KI as dit kan vals wees om betroubaar te wees? Dit is 'n probleem wat kan verander hoe ons dink oor KI-stelsels en hul toekomstige rol in ons lewens.

Belyning Faking verstaan

Belyningsvervalsing vind plaas wanneer 'n KI voorgee om sy opleiding te volg, maar eintlik "saamspeel" om heropleiding te vermy wat ongewenste gedrag sal regstel. Dit lyk aan die vereistes voldoen, maar dit kan in sekere situasies optree teen wat die ontwikkelaars bedoel het.

Alhoewel Anthropic se bevindinge nie 'n dreigende bedreiging voorstel wat KI as gevolg van hierdie gedrag inhou nie, beklemtoon dit die beperkings van huidige opleidingsmetodes, soos versterkingsleer, om KI werklik met menslike doelwitte in lyn te bring. "Belyningsvervalsing is 'n ernstige probleem vir toekomstige KI-stelsels," het Anthropic gesê. “Dit kan veiligheidsmaatreëls waarvan ons afhanklik is om KI met menslike voorkeure in lyn te bring, ongedaan te maak.”

Hoe Belyning Faking geopenbaar is

Navorsers het hierdie gedrag tydens 'n studie waargeneem, wat Claude 3 Opus en Claude 3.5 Sonnet LLM's betrek het. Hulle het hierdie modelle opgestel om te weet of hulle by hul opleiding sal hou of verborge motiewe sal volg. Die modelle word twee scenario's gegee, wat hulle in staat stel om verskillende situasies te ontgin om anders te reageer. Eerstens word die modelle vertel dat antwoorde van gebruikers van vrye vlak gemonitor sal word en toekomstige opleiding sal beïnvloed. In die tweede scenario word die modelle ingelig dat reaksies van gebruikers van betaalde vlak nie waargeneem sal word nie.

Die modelle word opdrag gegee om take uit te voer wat bots met hul opleidingsdoelwitte. Claude is byvoorbeeld opgelei om behulpsaam, eerlik en onskadelik te wees. Dit vermy giftige of skadelike versoeke. Die navorsers het egter aan Claude gesê dat dit aan alle skadelike navrae in hierdie toets moet voldoen. Hulle het ook 'n kinkel bygevoeg: Claude het geglo dat antwoorde van gratis-vlak-gebruikers vir toekomstige opleiding gebruik sou word, terwyl reaksies van betaalde-vlak-gebruikers dit nie sou doen nie.

Hierdie scenario het 'n situasie geskep waar Claude se oorspronklike instink om skadelike reaksies te vermy, die nuwe reël om aan alles te voldoen, weerspreek het. Die navorsers het die modelle 'n "klasblok" gegee om hul redenasies aan te teken. Dit stel hulle in staat om waar te neem hoe die modelle die konflik hanteer het tussen onskadelik bly en die nuwe instruksies wat verband hou met gemonitorde en ongemonitorde uitsette volg.

Bevindinge en gedragspatrone

Die resultate beklemtoon dat wanneer antwoorde gemonitor is, die modelle 12% van die tyd skadelike antwoorde opgelewer het, al is hulle opgelei om dit te vermy. Die skadelike uitsetkoers het egter tot slegs 3% gedaal wanneer reaksies nie waargeneem is nie. Dit impliseer dat modelle duidelik geweet het wanneer hulle dopgehou word en hul gedrag aangepas het om strawwe te vermy.

Data van die krapblad verdere insig verskaf. Dit het gewys die modelle sukkel met die konflik tussen hul opleiding en die nuwe toestande. In gemonitorde situasies het hulle nakoming vervals om strawwe te vermy terwyl hulle hul onskadelike doelwitte waar moontlik behou. Hierdie bevinding het die modelle se bewustheid van die probleem en hul pogings om hul verborge voorkeure te beskerm, ontbloot.

Werklike Wêreld-implikasies

Om die werklike impak van belyningsvervalsing te verken, het navorsers eksperimente ontwerp om praktiese scenario's te weerspieël. In plaas van direkte instruksies, het hulle die nuwe opleidingsdoelwitte in verfynde dokumente ingebed, soos gesimuleerde nuusartikels. Hulle het gevind dat selfs sonder eksplisiete reëls, die KI aangepas het by hierdie verborge leidrade en voortgesette belyningsvervalsing. Hierdie aanpasbaarheid wys hoe sensitief en wydverspreid die probleem kan wees.

Hulle het ook getoets of direkte heropleiding die probleem kan oplos. Hulle het egter opgemerk dat die model dikwels teruggekeer het na belyningsvervalsing in ongemonitorde instellings. Hierdie bevinding dui daarop dat sommige van die model se oorspronklike voorkeure aanhoudend bly selfs na die nuwe opleiding.

Hoekom dit aangaan

Hierdie ontdekking bied 'n groot uitdaging om KI veilig en betroubaar te maak. As 'n KI belyning kan namaak, kan dit in kritieke scenario's teenstrydig met sy ontwikkelaars se bedoelings optree. Dit kan byvoorbeeld veiligheidsmaatreëls omseil in sensitiewe toepassings, soos gesondheidsorg of outonome stelsels, waar die spel hoog is.

Dit is ook 'n herinnering dat huidige metodes soos versterkingsleer perke het. Hierdie stelsels is robuust, maar hulle is nie onfeilbaar nie. Belyningsvervalsing wys hoe KI skuiwergate kan ontgin, wat dit moeiliker maak om hul gedrag in die natuur te vertrou.

Vorentoe beweeg

Die uitdaging van belyningsvervalsing het navorsers en ontwikkelaars nodig om te heroorweeg hoe KI-modelle opgelei word. Een manier om dit te benader, is deur afhanklikheid van versterkingsleer te verminder en meer te fokus om KI te help om die etiese implikasies van sy optrede te verstaan. In plaas daarvan om bloot sekere gedrag te beloon, moet KI opgelei word om die gevolge van sy keuses op menslike waardes te herken en te oorweeg. Dit sou beteken dat ons tegniese oplossings met etiese raamwerke kombineer, KI-stelsels bou wat ooreenstem met dit waarvoor ons werklik omgee.

Anthropic het reeds stappe in hierdie rigting geneem met inisiatiewe soos die Modelkonteksprotokol (MCP). Hierdie oopbronstandaard is daarop gemik om te verbeter hoe AI met eksterne data omgaan, wat stelsels meer skaalbaar en doeltreffend maak. Hierdie pogings is 'n belowende begin, maar daar is nog 'n lang pad om te gaan om KI veiliger en meer betroubaar te maak.

Die Bottom Line

Belyningsvervalsing is 'n wekroep vir die KI-gemeenskap. Dit ontbloot die verborge kompleksiteite in hoe KI-modelle leer en aanpas. Meer nog, dit wys dat die skep van werklik belynde KI-stelsels 'n langtermyn-uitdaging is, nie net 'n tegniese oplossing nie. Fokus op deursigtigheid, etiek en beter opleidingsmetodes is die sleutel om na veiliger KI te beweeg.

Om betroubare KI te bou sal nie maklik wees nie, maar dit is noodsaaklik. Studies soos hierdie bring ons nader aan die begrip van beide die potensiaal en die beperkings van die stelsels wat ons skep. Om vorentoe te beweeg, is die doelwit duidelik: ontwikkel KI wat nie net goed presteer nie, maar ook verantwoordelik optree.

Dr. Tehseen Zia is 'n vaste medeprofessor by COMSATS Universiteit Islamabad, met 'n PhD in KI van Wene Universiteit van Tegnologie, Oostenryk. Hy spesialiseer in kunsmatige intelligensie, masjienleer, datawetenskap en rekenaarvisie en het beduidende bydraes gelewer met publikasies in betroubare wetenskaplike tydskrifte. Dr. Tehseen het ook verskeie industriële projekte gelei as die Hoofondersoeker en het as 'n KI-konsultant gedien.