Artificiell intelligens

En djupdykning i hämtning-augmented generation i LLM

publicerade October 2, 2023

Aayush Mittal Mittal

Retrieval Augmented Generation Illustration med Midjourney

Tänk dig att du är analytiker och har tillgång till en stor språkmodell. Du är entusiastisk över de möjligheter den ger ditt arbetsflöde. Men så frågar du den om de senaste aktiekurserna eller den aktuella inflationstakten, och den träffar dig med:

”Jag är ledsen, men jag kan inte tillhandahålla data i realtid eller efter gränsen. Mina senaste träningsdata gäller bara fram till januari 2022.”

Stora språkmodeller, trots all sin språkliga kraft, saknar förmågan att förstånu'. Och i den snabba världen, 'nu' är allt.

Forskning har visat att stora förtränade språkmodeller (LLM) också är arkiv för faktakunskap.

De har tränats på så mycket data att de har absorberat en mängd fakta och siffror. När de finjusteras kan de uppnå anmärkningsvärda resultat på en mängd olika NLP-uppgifter.

Men här är haken: deras förmåga att komma åt och manipulera denna lagrade kunskap är ibland inte perfekt. Speciellt när uppgiften är kunskapsintensiv kan dessa modeller halka efter mer specialiserade arkitekturer. Det är som att ha ett bibliotek med alla böcker i världen, men ingen katalog för att hitta det du behöver.

OpenAIs ChatGPT får en uppgradering av webbläsarfunktionen

OpenAIs nyliga tillkännagivande om ChatGPT:s webbläsarfunktioner är ett betydande steg i riktning mot Retrieval-Augmented Generation (RAG). Med ChatGPT som nu kan söka igenom internet efter aktuell och auktoritativ information, speglar det RAG:s tillvägagångssätt att dynamiskt hämta data från externa källor för att ge berikade svar.

ChatGPT kan nu surfa på internet för att förse dig med aktuell och auktoritativ information, komplett med direktlänkar till källor. Det är inte längre begränsat till datum före september 2021. pic.twitter.com/pyj8a9HWkB

- OpenAI (@OpenAI) September 27, 2023

OpenAI planerar att lansera funktionen för alla användare inom kort, och den är för närvarande tillgänglig för Plus- och Enterprise-användare. Användare kan aktivera den genom att välja "Bläddra med Bing" under alternativet GPT-4.

Chatgpts nya "Bing"-surffunktion

Snabb ingenjörskonst är effektivt men otillräckligt

Uppmaningar fungerar som en inkörsport till en juridiklärares kunskap. De vägleder modellen och ger en riktning för svaret. Att utforma en effektiv uppmaning är dock inte den fullständiga lösningen för att få det man vill ha från en juridiklärare. Låt oss ändå gå igenom några goda exempel att tänka på när man skriver en uppmaning:

KlarhetEn väldefinierad prompt eliminerar tvetydighet. Den bör vara enkel och säkerställer att modellen förstår användarens avsikt. Denna tydlighet leder ofta till mer sammanhängande och relevanta svar.
Sammanhang: Speciellt för omfattande ingångar kan placeringen av instruktionen påverka utmatningen. Att flytta instruktionen till slutet av en lång prompt kan till exempel ofta ge bättre resultat.
Precision i instruktionFrågans kraft, ofta förmedlad genom ramverket "vem, vad, var, när, varför, hur", kan vägleda modellen mot ett mer fokuserat svar. Dessutom kan angivande av önskat utdataformat eller storlek ytterligare förfina modellens utdata.
Hantera osäkerhetDet är viktigt att vägleda modellen i hur den ska reagera när den är osäker. Att till exempel instruera modellen att svara med "Jag vet inte" när den är osäker kan förhindra att den genererar felaktiga eller "hallucinerad" svar.
Steg-för-steg-tänkande: För komplexa instruktioner kan vägledning av modellen att tänka systematiskt eller dela upp uppgiften i deluppgifter leda till mer omfattande och korrekta utdata.

I relation till vikten av uppmaningar för att vägleda ChatGPT, kan en omfattande artikel hittas i en artikel på Unite.ai.

Utmaningar i generativa AI-modeller

Prompt engineering innebär att finjustera direktiven som ges till din modell för att förbättra dess prestanda. Det är ett mycket kostnadseffektivt sätt att öka noggrannheten i din generativa AI-applikation, vilket endast kräver mindre kodjusteringar. Även om prompt engineering kan förbättra resultaten avsevärt är det avgörande att förstå de inneboende begränsningarna hos stora språkmodeller (LLM). Två primära utmaningar är hallucinationer och kunskapsgränser.

Hallucinationer: Detta hänvisar till fall där modellen med säkerhet returnerar ett felaktigt eller tillverkat svar. Även om avancerad LLM har inbyggda mekanismer för att känna igen och undvika sådana utdata.

Hallucinationer i LLM

KunskapsgränserVarje LLM-modell har ett slutdatum för träningen, efter vilket den inte är medveten om händelser eller utvecklingar. Denna begränsning innebär att modellens kunskap fryses vid tidpunkten för dess senaste träningsdatum. Till exempel skulle en modell som tränats fram till 2022 inte känna till händelserna 2023.

Kunskapsavgränsning i LLM

Hämtningsförstärkt generation (RAG) erbjuder en lösning på dessa utmaningar. Det gör det möjligt för modeller att få tillgång till extern information, vilket mildrar problem med hallucinationer genom att ge tillgång till proprietära eller domänspecifika data. För kunskapsbrister kan RAG få tillgång till aktuell information bortom modellens träningsdatum, vilket säkerställer att utdata är uppdaterade.

Det gör också att LLM kan hämta data från olika externa källor i realtid. Detta kan vara kunskapsbaser, databaser eller till och med internets stora vidd.

Introduktion till Retrieval-Augmented Generation

Retrieval-Augmented Generation (RAG) är ett ramverk, snarare än en specifik teknik, som gör det möjligt för stora språkmodeller att utnyttja data som de inte har tränats på. Det finns flera sätt att implementera RAG, och den bästa lösningen beror på din specifika uppgift och dina datas natur.

RAG-ramverket fungerar på ett strukturerat sätt:

Snabbinmatning

Processen börjar med en användares inmatning eller uppmaning. Detta kan vara en fråga eller ett påstående som söker specifik information.

Hämtning från externa källor

Istället för att direkt generera ett svar baserat på sin träning söker modellen, med hjälp av en retrieverkomponent, igenom externa datakällor. Dessa källor kan sträcka sig från kunskapsbaser, databaser och dokumentarkiv till internettillgänglig data.

Förstå hämtning

I grund och botten speglar sökandet en sökoperation. Det handlar om att extrahera den mest relevanta informationen som svar på en användares inmatning. Denna process kan delas upp i två steg:

Indexering: Förmodligen är den mest utmanande delen av hela RAG-resan att indexera din kunskapsbas. Indexeringsprocessen kan grovt delas in i två faser: laddning och splittring. I verktyg som LangChain kallas dessa processer "avlastning"Och"splitters". Laddare hämtar innehåll från olika källor, oavsett om det är webbsidor eller PDF-filer. När de har hämtats segmenterar de sedan detta innehåll i lagom stora bitar och optimerar dem för inbäddning och sökning.
att fråga: Detta är handlingen att extrahera de mest relevanta kunskapsfragmenten baserat på en sökterm.

Även om det finns många sätt att närma sig hämtning, från enkel textmatchning till att använda sökmotorer som Google, är moderna RAG-system (Retrieval-Augmented Generation) beroende av semantisk sökning. I hjärtat av semantiskt sökande ligger konceptet med inbäddningar.

Inbäddningar är centrala för hur stora språkmodeller (LLM) förstår språk. När människor försöker artikulera hur de härleder mening från ord, cirklar förklaringen ofta tillbaka till inneboende förståelse. Djupt inom våra kognitiva strukturer inser vi att "barn" och "barn" är synonyma, eller att "rött" och "grönt" båda betecknar färger.

Förstärka uppmaningen

Den hämtade informationen kombineras sedan med den ursprungliga prompten, vilket skapar en utökad eller utökad prompt. Denna utökade prompt ger modellen ytterligare kontext, vilket är särskilt värdefullt om informationen är domänspecifik eller inte ingår i modellens ursprungliga träningsdatabas.

Genererar avslutningen

Med den utökade prompten i handen genererar modellen sedan ett kompletterande svar. Detta svar baseras inte bara på modellens träning utan informeras också av de realtidsdata som hämtas.

Retrieval-Augmented Generation

Arkitektur av First RAG LLM

Forskningsartikeln av Meta publicerad 2020 "Retrieval-Augmented Generation för kunskapsintensiva NLP-uppgifter” ger en djupgående titt på denna teknik. Retrieval-Augmented Generation-modellen utökar den traditionella generationsprocessen med en extern hämtning eller sökmekanism. Detta gör att modellen kan hämta relevant information från stora datakorpora, vilket förbättrar dess förmåga att generera kontextuellt korrekta svar.

Såhär fungerar det:

Parametriskt minneDetta är din traditionella språkmodell, som en seq2seq-modell. Den har tränats på stora mängder data och vet mycket.
Icke-parametriskt minneTänk på detta som en sökmotor. Det är ett tätt vektorindex av, säg, Wikipedia, som kan nås med hjälp av en neural hämtningsenhet.

När de kombineras skapar dessa två en exakt modell. RAG-modellen hämtar först relevant information från sitt icke-parametriska minne och använder sedan sin parametriska kunskap för att ge ett sammanhängande svar.

Original RAG-modell av Meta

1. Tvåstegsprocess:

RAG LLM fungerar i en tvåstegsprocess:

hämtning: Modellen söker först efter relevanta dokument eller passager från en stor datamängd. Detta görs med hjälp av en tät hämtningsmekanism, som använder inbäddningar för att representera både frågan och dokumenten. Inbäddningarna används sedan för att beräkna likhetspoäng och de högst rankade dokumenten hämtas.
GenerationMed de k mest relevanta dokumenten i handen kanaliseras de sedan till en sekvens-till-sekvens-generator tillsammans med den initiala frågan. Denna generator skapar sedan den slutliga utdata och hämtar kontext från både frågan och de hämtade dokumenten.

2. Tät hämtning:

Traditionella hämtningssystem förlitar sig ofta på glesa representationer som TF-IDF. RAG LLM använder dock täta representationer, där både frågan och dokumenten är inbäddade i kontinuerliga vektorutrymmen. Detta möjliggör mer nyanserade likhetsjämförelser och fångar semantiska relationer bortom bara sökordsmatchning.

3. Sekvens-till-sekvensgenerering:

De hämtade dokumenten fungerar som ett utökat sammanhang för genereringsmodellen. Denna modell, ofta baserad på arkitekturer som Transformers, genererar sedan den slutliga utdata, vilket säkerställer att den är sammanhängande och kontextuellt relevant.

Dokumentsökning

Indexering och hämtning av dokument

För effektiv informationssökning, särskilt från stora dokument, lagras data ofta i en vektordatabas. Varje bit data eller dokument indexeras baserat på en inbäddningsvektor, som fångar innehållets semantiska väsen. Effektiv indexering säkerställer snabb hämtning av relevant information baserat på inmatningsuppmaningen.

Vektordatabaser

Källa: Redis

Vektordatabaser, ibland kallade vektorlagring, är skräddarsydda databaser som är skickliga på att lagra och hämta vektordata. Inom AI och datavetenskap är vektorer i huvudsak listor över siffror som symboliserar punkter i ett flerdimensionellt utrymme. Till skillnad från traditionella databaser, som är mer anpassade till tabelldata, lyser vektordatabaser i att hantera data som naturligt passar ett vektorformat, såsom inbäddningar från AI-modeller.

Några anmärkningsvärda vektordatabaser inkluderar Annoy, Faiss av Meta, Milvusoch Pinecone. Dessa databaser är centrala i AI-applikationer och hjälper till med uppgifter som sträcker sig från rekommendationssystem till bildsökningar. Plattformar som AWS erbjuder också tjänster skräddarsydda för vektordatabasbehov, såsom Amazon OpenSearch Service och Amazon RDS för PostgreSQL. Dessa tjänster är optimerade för specifika användningsfall, vilket säkerställer effektiv indexering och sökning.

Chunking för relevans

Med tanke på att många dokument kan vara omfattande, används ofta en teknik som kallas "chunking". Detta innebär att bryta ner stora dokument i mindre, semantiskt sammanhängande bitar. Dessa bitar indexeras sedan och hämtas vid behov, vilket säkerställer att de mest relevanta delarna av ett dokument används för snabb förstärkning.

Överväganden i sammanhangsfönster

Varje LLM arbetar inom ett kontextfönster, vilket i huvudsak är den maximala mängd information den kan beakta samtidigt. Om externa datakällor tillhandahåller information som överskrider detta fönster måste den delas upp i mindre bitar som passar in i modellens kontextfönster.

Fördelar med att använda Retrieval-Augmented Generation

Förbättrad noggrannhet: Genom att utnyttja externa datakällor kan RAG LLM generera svar som inte bara är baserade på dess träningsdata utan också informeras av den mest relevanta och aktuella informationen som finns tillgänglig i hämtningskorpusen.
Att övervinna kunskapsluckorRAG adresserar effektivt de inneboende kunskapsbegränsningarna hos LLM, oavsett om det beror på modellens träningsgräns eller avsaknaden av domänspecifik data i dess träningssamling.
Mångsidighet: RAG kan integreras med olika externa datakällor, från egna databaser inom en organisation till allmänt tillgänglig internetdata. Detta gör den anpassningsbar till ett brett spektrum av applikationer och industrier.
Minska hallucinationer: En av utmaningarna med LLM är potentialen för "hallucinationer" eller generering av faktiskt felaktig eller tillverkad information. Genom att tillhandahålla realtidsdatakontext kan RAG avsevärt minska chanserna för sådana utdata.
Skalbarhet: En av de främsta fördelarna med RAG LLM är dess förmåga att skala. Genom att separera hämtnings- och genereringsprocesserna kan modellen effektivt hantera stora datamängder, vilket gör den lämplig för verkliga applikationer där data finns i överflöd.

Utmaningar och överväganden

Beräkningsoverhead: Tvåstegsprocessen kan vara beräkningsintensiv, speciellt när man hanterar stora datamängder.
Databeroende: Kvaliteten på de hämtade dokumenten påverkar direkt genereringskvaliteten. Därför är det avgörande att ha en omfattande och välkurerad hämtningskorpus.

Slutsats

Genom att integrera hämtnings- och genereringsprocesser erbjuder Retrieval-Augmented Generation en robust lösning för kunskapsintensiva uppgifter, vilket säkerställer utdata som är både informerade och kontextuellt relevanta.

Det verkliga löftet med RAG ligger i dess potentiella verkliga tillämpningar. För sektorer som sjukvård, där aktuell och korrekt information kan vara avgörande, erbjuder RAG möjligheten att extrahera och generera insikter från omfattande medicinsk litteratur sömlöst. Inom finansområdet, där marknaderna utvecklas för varje minut, kan RAG tillhandahålla datadrivna insikter i realtid, vilket hjälper till med välgrundat beslutsfattande. Vidare, inom akademi och forskning, kan forskare utnyttja RAG för att skanna stora arkiv med information, vilket gör litteraturgenomgångar och dataanalys mer effektiva.

Relaterade ämnen:chatt gpt generativ ai LLM OpenAI PROMPT INGENJERING hämtning utökad generation

Strax

Mistral AI: Sätter nya riktmärken bortom Llama2 i Open-Source Space

Missa inte

Innovativ akustisk svärmteknik formar framtiden för ljud i rummet

Aayush Mittal

Jag har ägnat de senaste fem åren åt att fördjupa mig i den fascinerande världen av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika programvaruutvecklingsprojekt, med särskilt fokus på AI/ML. Min pågående nyfikenhet har också dragit mig mot Natural Language Processing, ett område som jag är ivrig att utforska vidare.

Unite.AI