Artificiell intelligens

Den svarta lÄdans problem i LLM: utmaningar och framvÀxande lösningar

mm
black box model LLM

Maskinlärning, en undergrupp till AI, består av tre komponenter: algoritmer, träningsdata och den resulterande modellen. En algoritm, i princip en uppsättning procedurer, lär sig att identifiera mönster från en stor uppsättning exempel (träningsdata). Kulmen av denna utbildning är en maskinlärningsmodell. Till exempel skulle en algoritm som tränats med bilder av hundar resultera i en modell som kan identifiera hundar i bilder.

Den svarta lådan i maskinlärning

I maskinlärning kan någon av de tre komponenterna – algoritm, träningsdata eller modell – vara en svart låda. Medan algoritmer ofta är allmänt kända kan utvecklare välja att hålla modellen eller träningsdata hemliga för att skydda immateriella rättigheter. Denna dunkelhet gör det svårt att förstå AI:s beslutsprocess.

AI-svarta lådor är system vars inre funktioner förblir ogenomskinliga eller osynliga för användare. Användare kan mata in data och få utdata, men logiken eller koden som producerar utdata förblir dold. Detta är ett vanligt kännetecken i många AI-system, inklusive avancerade generativa modeller som ChatGPT och DALL-E 3.

LLM som GPT-4 presenterar en betydande utmaning: deras inre funktioner är till stor del ogenomskinliga, vilket gör dem till “svarta lådor”. Denna ogenomskinlighet är inte bara ett tekniskt pussel; den utgör verkliga säkerhets- och etiska problem. Till exempel, om vi inte kan förstå hur dessa system når slutsatser, kan vi lita på dem i kritiska områden som medicinska diagnoser eller finansiella bedömningar?

Att utforska teknikerna för LIME och SHAP

Tolkningsbarhet i maskinlärning (ML) och djupinlärning (DL) modeller hjälper oss att se in i de opaka inre funktionerna i dessa avancerade modellerna. Lokalt tolkningsbara modell-agnostiska förklaringar (LIME) och SHapley Additiva förklaringar (SHAP) är två sådana etablerade tolkningsbarhetstekniker.

Tolkningsbarhet

Tolkningsbarhet

LIME, till exempel, bryter ner komplexiteten genom att skapa enklare, lokala surrogate-modeller som approximerar beteendet hos den ursprungliga modellen runt en specifik inmatning. Genom att göra detta hjälper LIME till att förstå hur enskilda funktioner påverkar förutsägelserna i komplexa modeller, i princip genom att ge en “lokalt” förklaring till varför en modell fattade ett visst beslut. Det är särskilt användbart för icke-tekniska användare, eftersom det översätter de invecklade beslutsprocesserna i modellerna till mer förståeliga termer.

Modell-agnostisk tolkning av maskinlÀrning

Modell-agnostisk tolkning av maskinlärning (LIME) Källa

SHAP, å andra sidan, tar inspiration från spelteori, specifikt konceptet Shapley-värden. Det tilldelar ett “viktigt” värde till varje funktion, vilket indikerar hur mycket varje funktion bidrar till skillnaden mellan den faktiska förutsägelsen och baslinjeförutsägelsen (genomsnittsförutsägelsen över alla inmatningar). SHAP:s styrka ligger i dess konsekvens och förmåga att ge en global perspektiv – det förklarar inte bara enskilda förutsägelser utan ger också insikt i modellen som helhet. Detta är särskilt värdefullt i djupinlärningsmodeller, där de sammanlänkade lagren och de många parametrarna ofta gör förutsägelseprocessen till en resa genom en labyrint. SHAP avmystifierar detta genom att kvantifiera bidraget från varje funktion, vilket erbjuder en tydligare karta över modellens beslutsprocesser.

SHAP

SHAP (Källa)

Både LIME och SHAP har uppstått som viktiga verktyg i området AI och ML, som hanterar det kritiska behovet av transparens och tillförlitlighet. När vi fortsätter att integrera AI djupare i olika sektorer, blir förmågan att tolka och förstå dessa modeller inte bara en teknisk nödvändighet utan en grundläggande krav för etisk och ansvarsfull AI-utveckling. Dessa tekniker representerar betydande steg i att avslöja komplexiteterna i ML- och DL-modeller, omvandlande dem från outgrundliga “svarta lådor” till förståeliga system vars beslut och beteenden kan förstås, litas på och effektivt utnyttjas.

Storleken och komplexiteten hos LLM

Storleken på dessa modeller bidrar till deras komplexitet. Ta till exempel GPT-3, med dess 175 miljarder parametrar, och nyare modeller med biljoner. Varje parameter interagerar på invecklade sätt inom neuronnätverket, bidrar till emergenta förmågor som inte kan förutsägas genom att undersöka enskilda komponenter ensamma. Denna skala och komplexitet gör det nästan omöjligt att fullständigt förstå deras inre logik, vilket utgör ett hinder i att diagnostisera fördomar eller oönskade beteenden i dessa modeller.

Kompromissen: skala mot tolkningsbarhet

Att minska storleken på LLM kan förbättra tolkningsbarheten, men till priset av deras avancerade förmågor. Storleken är det som möjliggör beteenden som mindre modeller inte kan uppnå. Detta presenterar en inneboende kompromiss mellan skala, förmåga och tolkningsbarhet.

LLM-svarta lådans påverkan

1. Felaktigt beslutsfattande

Ogenomskinligheten i beslutsprocessen för LLM som GPT-3 eller BERT kan leda till oupptäckta fördomar och fel. I områden som hälsovård eller rättssystem, där beslut har långtgående konsekvenser, är oförmågan att granska LLM för etisk och logisk sundhet ett stort problem. Till exempel kan en medicinsk diagnos-LLM som förlitar sig på föråldrad eller fördomsfull data ge skadliga rekommendationer. Likaså kan LLM i rekryteringsprocesser oavsiktligt förstärka könsfördomar. Den svarta lådans natur döljer inte bara fel, utan kan potentiellt förstärka dem, vilket kräver en proaktiv approach för att öka transparensen.

2. Begränsad anpassningsförmåga i olika sammanhang

Bristen på insikt i de inre funktionerna hos LLM begränsar deras anpassningsförmåga. Till exempel kan en rekryterings-LLM vara ineffektiv i att utvärdera kandidater för en roll som värdesätter praktiska färdigheter över akademiska kvalifikationer, på grund av dess oförmåga att justera sina utvärderingskriterier. Likaså kan en medicinsk LLM ha svårt att diagnostisera sällsynta sjukdomar på grund av dataobalanser. Denna inflexibilitet understryker behovet av transparens för att omkalibrera LLM för specifika uppgifter och sammanhang.

3. Fördomar och kunskapsluckor

LLM:s bearbetning av stora träningsdata är föremål för begränsningarna som pålagts av deras algoritmer och modellarkitekturer. Till exempel kan en medicinsk LLM visa demografiska fördomar om den tränas på obalanserade dataset. Dessutom kan en LLM:s kompetens inom nischämnen vara vilseledande, vilket leder till övermodiga, felaktiga utdata. Att hantera dessa fördomar och kunskapsluckor kräver mer än bara ytterligare data; det kräver en undersökning av modellens bearbetningsmekanik.

4. Rättslig och etisk ansvarighet

Den ogenomskinliga naturen hos LLM skapar ett rättsligt gråområde när det gäller ansvar för eventuell skada orsakad av deras beslut. Om en LLM i en medicinsk miljö ger felaktiga råd som leder till patientSkada, blir det svårt att fastställa ansvar på grund av modellens ogenomskinlighet. Denna rättsliga osäkerhet utgör risker för enheter som distribuerar LLM i känsliga områden, vilket understryker behovet av tydlig styrning och transparens.

5. Förtroendeproblem i känsliga tillämpningar

För LLM som används i kritiska områden som hälsovård och finans, undergräver bristen på transparens deras tillförlitlighet. Användare och tillsynsmyndigheter behöver säkerställa att dessa modeller inte innehåller fördomar eller fattar beslut baserat på orättvisa kriterier. Att verifiera frånvaron av fördomar i LLM kräver en förståelse av deras beslutsprocesser, vilket understryker vikten av förklarbarhet för etisk distribution.

6. Risker med personuppgifter

LLM kräver omfattande träningsdata, som kan innehålla känsliga personuppgifter. Den svarta lådans natur hos dessa modeller väcker frågor om hur dessa data bearbetas och används. Till exempel väcker en medicinsk LLM som tränats på patientjournaler frågor om dataskydd och användning. Att säkerställa att personuppgifter inte missbrukas eller utnyttjas kräver transparenta datahanteringsprocesser inom dessa modeller.

Framväxande lösningar för tolkningsbarhet

För att hantera dessa utmaningar utvecklas nya tekniker. Dessa inkluderar kontrafaktiska (CF) approximeringsmetoder. Den första metoden innebär att en LLM uppmanas att ändra ett specifikt textkoncept medan andra koncept hålls konstant. Denna approach, även om den är effektiv, är resurskrävande vid inferenstid.

Den andra metoden innebär att skapa ett dedikerat inbäddningsutrymme som vägleds av en LLM under utbildning. Detta utrymme är anpassat till en kausal graf och hjälper till att identifiera matchningar som approximerar CF. Denna metod kräver färre resurser vid testtid och har visat sig effektivt kunna förklara modellförutsägelser, även i LLM med miljarder parametrar.

Dessa metoder understryker vikten av kausala förklaringar i NLP-system för att säkerställa säkerhet och etablera förtroende. Kontrafaktiska approximeringar erbjuder ett sätt att föreställa sig hur en given text skulle förändras om ett visst koncept i dess generativa process var annorlunda, vilket underlättar praktisk kausal effektberäkning av högnivåkoncept på NLP-modeller.

Djupdykning: förklaringsmetoder och kausalitet i LLM

Sondning och funktionellt viktverktyg

Sondning är en teknik som används för att avkoda vad interna representationer i modeller kodar. Det kan vara antingen övervakat eller oövervakat och syftar till att bestämma om specifika koncept är kodade på vissa ställen i nätverket. Medan det är effektivt till viss del, når sonden inte upp till att ge kausala förklaringar, som betonats av Geiger et al. (2021).

Funktionellt viktverktyg, en annan form av förklaringsmetod, fokuserar ofta på indatafunktioner, även om vissa gradientbaserade metoder utvidgar detta till dolda tillstånd. Ett exempel är den integrerade gradientmetoden, som erbjuder en kausal tolkning genom att utforska baslinje- (kontrafaktiska, CF) indata. Trots deras användbarhet kämpar dessa metoder fortfarande med att koppla sina analyser till verkliga koncept utöver enkla indataegenskaper.

Ingripande-baserade metoder

Ingripande-baserade metoder innebär att modifiera indata eller interna representationer för att studera effekter på modellbeteende. Dessa metoder kan skapa kontrafaktiska tillstånd för att uppskatta kausala effekter, men de genererar ofta osannolika indata eller nätverkstillstånd om de inte kontrolleras noggrant. Den kausala proxy-modellen (CPM), inspirerad av S-learner-konceptet, är en ny approach inom detta område, som imiterar beteendet hos den förklarade modellen under kontrafaktiska indata. Dock är behovet av en distinkt förklarare för varje modell en betydande begränsning.

Approximering av kontrafaktiska

Kontrafaktiska är allmänt använda i maskinlärning för dataförstärkning, som innebär perturbationer av olika faktorer eller etiketter. Dessa kan genereras genom manuell redigering, heuristisk nyckelordsersättning eller automatisk textomskrivning. Medan manuell redigering är exakt, är den också resurskrävande. Nyckelbaserade metoder har sina begränsningar, och generativa metoder erbjuder en balans mellan flyt och täckning.

Trovärdiga förklaringar

Trovärdighet i förklaringar refererar till att exakt avbilda den underliggande resonemanget i modellen. Det finns ingen allmänt accepterad definition av trovärdighet, vilket leder till att den karakteriseras genom olika mått som Känslighet, Konsekvens, Funktionellt viktavtal, Robusthet och Simulerbarhet. De flesta av dessa metoder fokuserar på funktionell nivå och förväxlar ofta korrelation med kausalitet. Vårt arbete syftar till att ge högnivåkonceptförklaringar, som utnyttjar kausalitetslitteraturen för att föreslå ett intuitivt kriterium: Ordning-Trovärdighet.

Vi har dykt djupt in i de inneboende komplexiteterna hos LLM, förstått deras “svarta lådans” natur och de betydande utmaningar det medför. Från riskerna med felaktigt beslutsfattande i känsliga områden som hälsovård och finans till de etiska dilemmorna kring fördomar och rättvisa, har behovet av transparens i LLM aldrig varit mer påtagligt.

Framtiden för LLM och deras integration i våra dagliga liv och kritiska beslutsprocesser hänger på vår förmåga att göra dessa modeller inte bara mer avancerade utan också mer förståeliga och ansvariga. Jakten på förklarbarhet och tolkningsbarhet är inte bara ett tekniskt företag, utan en grundläggande aspekt av att bygga förtroende för AI-system. När LLM blir mer integrerade i samhället, kommer kraven på transparens att öka, inte bara från AI-praktiker, utan från varje användare som interagerar med dessa system.

Jag har tillbringat de senaste fem Ären med att dyka djupt in i den fascinerande vÀrlden av MaskinlÀrning och DjupinlÀrning. Min passion och expertis har lett mig till att bidra till över 50 olika mjukvaruprojekt, med sÀrskild fokus pÄ AI/ML. Min pÄgÄende nyfikenhet har ocksÄ lett mig mot Naturlig SprÄkbehandling, ett omrÄde som jag Àr angelÀgen om att utforska vidare.