Kunstig intelligens
Broen mellem store sprogmodeller og forretning: LLMops

Baggrunden for LLM’er som OpenAI’s GPT-3 eller dens efterfølger GPT-4 ligger i dyb læring, en undergruppe af AI, der udnytter neurale netværk med tre eller flere lag. Disse modeller er trænet på enorme datasæt, der omfatter et bredt spektrum af internettekst. Gennem træning lærer LLM’er at forudsige det næste ord i en sekvens, givet de ord, der er kommet før. Denne evne, enkel i sin essens, danner grundlag for LLM’ers evne til at generere sammenhængende, kontekstrellevant tekst over lange sekvenser.
Potentielle anvendelser er ubegrænsede – fra udarbejdelse af e-mails, skabelse af kode, besvarelse af spørgsmål til endda kreativ skrivning. Dog er det med stor magt følger stor ansvar, og håndtering af disse kæmpemodeller i en produktionsmiljø er ikke trivialt. Her kommer LLMOps ind i billedet, som inkarnerer en samling af bedste praksis, værktøjer og processer for at sikre en pålidelig, sikker og effektiv drift af LLM’er.
Vejen til LLM-integration har tre fremherskende ruter:
- Prompting af generelle LLM’er:
- Modeller som ChatGPT og Bard tilbyder en lav barrierer for adoption med minimalt forhåndskost, selvom der kan være en potentiel pris på lang sigt.
- Dog hviler skyggerne af dataintegritet og -sikkerhed tungt, især for sektorer som Fintech og sundhedssektoren med stramme reguleringsrammer.
- Finjustering af generelle LLM’er:
- Med open-source-modeller som Llama, Falcon og Mistral kan organisationer tilpasse disse LLM’er til at harmonere med deres specifikke brugsområder med kun modeltilpasningsressourcer som omkostning.
- Denne vej, der både løser bekymringer om privatliv og sikkerhed, kræver en mere omfattende modelvalg, dataforberedning, finjustering, implementering og overvågning.
- Den cykliske natur af denne rute kræver en vedvarende engagement, men nyere innovationer som LoRA (Low-Rank Adaptation) og Q(Quantized)-LoRa har strømlinet finjusteringsprocessen, hvilket gør det til en stadig mere populær valg.
- Tilpasning af LLM’er:
- Udvikling af en LLM fra bunden lover en ubesværet præcision tilpasset opgaven. Dog stiller de høje krav til AI-ekspertise, beregningsressourcer, omfattende data og tidsinvesteringen betydelige hindringer.
Af de tre er finjusteringen af generelle LLM’er den mest gunstige mulighed for virksomheder. At opbygge en ny grundmodel kan koste op til 100 millioner dollars, mens finjustering af eksisterende modeller varierer mellem 100.000 til 1 million dollars. Disse tal stammer fra beregningsomkostninger, dataanskaffelse og -mærkning samt udviklings- og forskningsudgifter.
LLMOps versus MLOps
Machine learning operations (MLOps) har været en velafprøvet vej, der tilbyder en struktureret vej til at overføre machine learning (ML)-modeller fra udvikling til produktion. Dog med opkomsten af store sprogmodeller (LLM’er) er der opstået et nyt operativt paradigme, betegnet LLMOps, for at tackle de unikke udfordringer forbundet med implementering og drift af LLM’er. Forskellen mellem LLMOps og MLOps ligger på flere punkter:
- Beregningsressourcer:
- LLM’er kræver en betydelig beregningskraft til træning og finjustering, ofte nødvendiggørende specialiseret hardware som GPU’er til at accelerere data-parallele operationer.
- Omkostningerne ved inferens understreger endnu mere vigtigheden af modelkomprimering og -destillationsteknikker for at reducere beregningsomkostninger.
- Overføring af læring:
- I modsætning til konventionelle ML-modeller, der ofte trænes fra bunden, hviler LLM’er tungt på overføring af læring, hvor man starter med en fortrænet model og finjusterer den for bestemte domæneopgaver.
- Dette tilgang reducerer omkostningerne ved data og beregningsressourcer, samtidig med at det opnår state-of-the-art-præstation.
- Menneskelig feedback-løkke:
- Forbedringen af LLM’er drives i høj grad af forstærket læring fra menneskelig feedback (RLHF).
- Integration af en feedback-løkke i LLMOps-pipelines gør ikke kun evalueringen lettere, men driver også finjusteringsprocessen.
- Hyperparameter-justering:
- Mens klassisk ML fokuserer på forbedring af nøjagtighed via hyperparameter-justering, omfatter fokusområdet i LLM også reduktion af beregningskrav.
- Justering af parametre som batch-størrelser og læringsrater kan markant ændre træningshastighed og -omkostninger.
- Præstationsmetrik:
- Traditionelle ML-modeller holder fast i veldefinerede præstationsmetrik som nøjagtighed, AUC eller F1-score, mens LLM’er har en anden metrik-sæt som BLEU og ROUGE.
- BLEU og ROUGE er metrikker, der bruges til at evaluere kvaliteten af maskin-genererede oversættelser og sammenfattelser. BLEU bruges primært til maskinoversættelse, mens ROUGE bruges til tekst-sammenfattningsopgaver.
- BLEU måler præcision, eller hvor meget ordene i maskin-genererede sammenfattelser optræder i menneskelige referencesammenfattelser. ROUGE måler genkald, eller hvor meget ordene i menneskelige referencesammenfattelser optræder i maskin-genererede sammenfattelser.
- Prompt-teknik:
- Præcis prompt-teknik er afgørende for at fremkalde præcise og pålidelige svar fra LLM’er, og reducerer risici som model-hallucination og prompt-hacking.
- LLM-pipelines-konstruktion:
- Værktøjer som LangChain eller LlamaIndex muliggør opbygning af LLM-pipelines, der forbinder multiple LLM-kald eller eksterne system-interaktioner for komplekse opgaver som videnbasen Q&A.
Forståelse af LLMOps-arbejdsgangen: En dybdegående analyse
Sprogmodeloperations, eller LLMOps, ligner den operative rygrad af store sprogmodeller, sikrer en problemfri drift og integration på tværs af forskellige anvendelser. Mens det ligner en variant af MLOps eller DevOps, har LLMOps unikke nuancer, der tilgodeser store sprogmodellers krav. Lad os dykke ned i LLMOps-arbejdsgangen, som vist i illustrationen, og udforske hver fase omfattende.
- Træningsdata:
- Essensen af en sprogmodel ligger i dens træningsdata. Dette trin indebærer indsamling af datasæt, sikring af, at de er rensede, balancerede og passende annoterede. Datans kvalitet og diversitet har en betydelig indvirkning på modellens nøjagtighed og fleksibilitet. I LLMOps ligger fokus ikke kun på mængde, men også på tilpasning til modellens ønskede brugsområde.
- Open Source-grundmodel:
- Illustrationen henviser til en “Open Source-grundmodel”, en fortrænet model, der ofte udgives af førende AI-entiteter. Disse modeller, trænet på store datasæt, tjener som en fremragende udgangspunkt, som sparer tid og ressourcer, og muliggør finjustering for bestemte opgaver i stedet for at træne en ny model.
- Træning / Tilpasning:
- Med en grundmodel og specifik træningsdata følger tilpasning. Dette trin forfiner modellen for specialiserede formål, som f.eks. finjustering af en generel tekstmodel med medicinsk litteratur for sundhedsanvendelser. I LLMOps er omhyggelig tilpasning med konstante checks afgørende for at forhindre overtilpasning og sikre god generalisering til usete data.
- Trænet model:
- Efter tilpasning opstår en trænet model, der er klar til implementering. Denne model, en forbedret version af grundmodellen, er nu specialiseret til en bestemt anvendelse. Den kan være open-source med offentligt tilgængelige vægte og arkitektur eller proprietær, holdt hemmelig af organisationen.
- Implementer:
- Implementering indebærer integration af modellen i et live-miljø for rigtig verden-bearbejdning. Det indebærer beslutninger om vært, enten på lokal maskine eller på cloud-platforme. I LLMOps er overvejelser omkring latency, beregningsomkostninger og tilgængelighed afgørende, sammen med sikring af, at modellen skalerer godt for mange samtidige anmodninger.
- Prompt:
- I sprogmodeller er en prompt en input-spørgsmål eller udsagn. Opbygning af effektive prompts, ofte krævende modeladfærdforståelse, er afgørende for at fremkalde ønskede output, når modellen bearbejder disse prompts.
- Indlejringslager eller Vektordatabaser:
- Efter bearbejdning kan modeller returnere mere end almindelig tekstoutput. Avancerede anvendelser kan kræve indlejring – højdimensionelle vektorer, der repræsenterer semantisk indhold. Disse indlejring kan gemmes eller tilbydes som en service, hvilket muliggør hurtig tilgang eller sammenligning af semantisk information, og beriger måden, modellens evner udnyttes på, ud over almindelig tekstgenerering.
- Implementeret model (selv-vært eller API):
- Når bearbejdet er færdigt, er modellens output klar. Afhængigt af strategien kan output nås via en selv-værtet interface eller en API, hvor den førstnævnte tilbyder mere kontrol til værtsorganisationen, og den sidstnævnte tilbyder skalerbarhed og let integration for tredjepartsudviklere.
- Output:
- Dette trin resulterer i den konkrete output af arbejdsgangen. Modellen tager en prompt, bearbejder den og returnerer en output, der afhængigt af anvendelsen kan være tekstblokke, svar, genererede historier eller endda indlejring, som omtalt.
Top LLM-startups
Landskabet for store sprogmodeller (LLMOps) har oplevet opkomsten af specialiserede platforme og startups. Her er to startups/platforme og deres beskrivelser i forhold til LLMOps-området:
Comet strømliner maskinlæringslivscyklussen, specielt rettet mod udvikling af store sprogmodeller. Det tilbyder faciliteter for at spore eksperimenter og administrere produktionsmodeller. Platformen er velegnet til store virksomheds teams og tilbyder forskellige implementeringsstrategier, herunder private cloud, hybrid og lokal installation.
Dify
Dify er en open-source LLMOps-platform, der hjælper med udviklingen af AI-applikationer, der anvender store sprogmodeller som GPT-4. Den tilbyder en brugervenlig interface og giver problemfri adgang til modeller, kontekst-indlejring, omkostningskontrol og data-annoteringsfunktioner. Brugere kan let administrere deres modeller visuelt og anvende dokumenter, webindhold eller Notion-noter som AI-kontekst, som Dify håndterer for forarbejdning og andre operationer.
Portkey.ai
Portkey.ai er en indisk startup, der specialiserer sig i sprogmodeloperations (LLMOps). Med en nylig seed-finansiering på 3 millioner dollars, ledet af Lightspeed Venture Partners, tilbyder Portkey.ai integrationer med betydelige store sprogmodeller som dem fra OpenAI og Anthropic. Deres tjenester er rettet mod generative AI-virksomheder, der fokuserer på at forbedre deres LLM-operationsstak, der inkluderer realtids-canary-test og model-finjusteringsfunktioner.













