Tankeledere
Tilpassede LLMs for hver bedrift? DeepSeek viser veien

En gang var teknologiens klar rop «mobiltelefoner for alle» – og faktisk har mobilkommunikasjon revolusjonert bedrifter (og verden). I dag er det tilsvarende rop å gi alle tilgang til AI-applikasjoner. Men den virkelige kraften i AI ligger i å utnytte den for de spesifikke behovene til bedrifter og organisasjoner. Veien som er blåst av den kinesiske startupen DeepSeek demonstrerer hvordan AI kan utnyttes av alle, spesielt de med begrensede budsjetter, for å møte deres spesifikke behov. Faktisk lover ankomsten av lavkostnads-AI å endre det dypt inarbeidede mønsteret av AI-løsninger som ofte forblir utenfor syn for mange små bedrifter og organisasjoner på grunn av kostnadskrav.
LLMs er – eller var – et kostbar bedrift, som krever tilgang til massive mengder data, store mengder kraftfulle datamaskiner for å prosessere data, og tid og ressurser investert i å trene modellen. Men disse reglene endres. DeepSeek utviklet sin egen LLM og en ChatGPT-type applikasjon for spørsmål – med en langt mindre investering enn for tilsvarende systemer bygget av amerikanske og europeiske selskaper. Tilnærmingen til DeepSeek åpner et vindu inn i LLM-utvikling for mindre organisasjoner som ikke har milliarder å bruke. Faktisk kan dagen ikke være langt unna når de fleste små organisasjoner kan utvikle sine egne LLMs for å betjene sine egne spesifikke formål, vanligvis tilbyr en mer effektiv løsning enn generelle LLMs som ChatGPT.
Mens debatten fortsatt er over den virkelige kostnaden av DeepSeek, er det ikke bare kostnaden som setter det og lignende modeller fra hverandre: Det er faktum at det ble avhengig av mindre avanserte chips og en mer fokusert tilnærming til trening. Som et kinesisk selskap som er underlagt amerikanske eksportrestriksjoner, kunne DeepSeek ikke få tilgang til avanserte Nvidia-chips som vanligvis brukes for tungvæske datamaskin som kreves for LLM-utvikling, og ble derfor tvunget til å bruke mindre kraftfulle Nvidia H-800-chips, som ikke kan prosessere data like raskt eller effektivt.
For å kompensere for denne mangelen på kraft, tok DeepSeek en annen, mer fokusert og direkte tilnærming til sin LLM-utvikling. I stedet for å kaste fjell av data på en modell og avhenge av datamaskinens styrke til å merke og anvende data, snevret DeepSeek inn treningen, utnyttet en liten mengde høykvalitets “cold-start”-data og anvendte IRL (iterativ forsterket læring, med algoritmen som anvender data til forskjellige scenarier og lærer av det). Denne fokuserte tilnærmingen tillater modellen å lære raskere, med færre feil og mindre bortkastet datamaskinkraft.
Lignende hvordan foreldre kan veilede et barns spesifikke bevegelser, hjelpe henne med å rulle over for første gang – i stedet for å la barnet finne ut av det alene, eller lære barnet en bredere variasjon av bevegelser som kunne teoretisk hjelpe med å rulle over – zoomer datavitenskapsmennene som trener disse mer fokuserte AI-modellene inn på hva som er mest nødvendig for bestemte oppgaver og resultater. Slike modeller har sannsynligvis ikke like bredt anvendelsesområde som større LLMs som ChatGPT, men de kan pålitelig brukes for spesifikke applikasjoner, og utføre dem med presisjon og effektivitet. Selv DeepSeeks kritikere innrømmer at dens strømlinjeformede tilnærming til utvikling betydelig økte effektiviteten, og muliggjorde at det kunne gjøre mer med langt mindre.
Denne tilnærmingen handler om å gi AI de beste innputtene så den kan nå sine milepæler på den smarteste og mest effektive måten mulig, og kan være verdifull for enhver organisasjon som ønsker å utvikle en LLM for sine spesifikke behov og oppgaver. En slik tilnærming er stadig mer verdifull for små bedrifter og organisasjoner. Det første steget er å starte med riktig data. For eksempel bør et selskap som ønsker å bruke AI til å hjelpe sine salgs- og markedsføringslag trene sin modell på en nøye valgt datasett som fokuserer på salgs samtaler, strategier og målinger. Dette holder modellen fra å sløse bort tid og datamaskinkraft på irrelevant informasjon. I tillegg må treningen være strukturert i stadier, og sikre at modellen behersker hver oppgave eller konsept før den går videre til neste.
Dette har også paralleller i å oppfostre et barn, som jeg har lært meg selv siden jeg ble mor for noen måneder siden. I begge scenarier unngår en guidede, steg-for-steg-tilnærming å sløse bort ressurser og reduserer friksjon. Til slutt resulterer en slik tilnærming med både menneskelige babyer og AI-modeller i iterativ forbedring. Etterhvert som barnet vokser, eller modellen lærer mer, forbedres dens evner. Dette betyr at modeller kan forbedres og forfineres for å håndtere virkelige situasjoner bedre.
Denne tilnærmingen holder kostnadene nede, og forhindrer at AI-prosjekter blir en ressurs-sluk, og gjør dem mer tilgjengelige for mindre lag og organisasjoner. Den fører også til bedre ytelse av AI-modeller raskere; og fordi modellene ikke er overbelastet med unødvendig data, kan de også justeres for å tilpasse seg ny informasjon og endrede forretningsbehov – nøkkel i konkurransedyktige markeder.
Ankomsten av DeepSeek og verden av lavkostnads-, mer effektiv AI – selv om det først spredte panikk gjennom AI-verden og aksjemarkedene – er overordnet sett en positiv utvikling for AI-sektoren. Den større effektiviteten og lavere kostnadene til AI, i det minste for visse fokuserte applikasjoner, vil til slutt resultere i mer bruk av AI generelt, som driver vekst for alle, fra utviklere til chipprodusenter til sluttbrukere. Faktisk illustrerer DeepSeek Jevons paradoks – hvor mer effektivitet sannsynligvis vil resultere i mer bruk av en ressurs, ikke mindre. Ettersom denne trenden ser ut til å fortsette, vil små bedrifter som fokuserer på å bruke AI til å møte sine spesifikke behov, også være bedre posisjonert for vekst og suksess.












