Connect with us

Thought leaders

Maatwerk LLMs voor elk bedrijf? DeepSeek laat ons zien hoe het moet

mm

Er was eens een tijd dat de technische oproep was “cellphones voor iedereen” – en inderdaad hebben mobiele communicaties de wereld (en het bedrijfsleven) gerevolutioneerd. Tegenwoordig is de equivalent van die oproep om iedereen toegang te geven tot AI-toepassingen. Maar de echte kracht van AI ligt in het benutten ervan voor de specifieke behoeften van bedrijven en organisaties. De weg die door de Chinese startup DeepSeek is geëffend, toont aan hoe AI inderdaad door iedereen kan worden benut, vooral door die met beperkte budgetten, om hun specifieke behoeften te vervullen. De komst van goedkopere AI belooft de diepgewortelde patronen van AI-oplossingen, die vaak buiten het zicht van veel kleine bedrijven en organisaties blijven vanwege de kosten, te veranderen.

LLMs zijn – of waren – een dure onderneming, die toegang vereist tot enorme hoeveelheden data, een groot aantal krachtige computers om de data te verwerken, en tijd en middelen die worden geïnvesteerd in het trainen van het model. Maar die regels veranderen. Met een schamele begroting ontwikkelde DeepSeek zijn eigen LLM en een ChatGPT-achtige toepassing voor queries – met een veel kleinere investering dan die voor soortgelijke systemen die door Amerikaanse en Europese bedrijven zijn gebouwd. De aanpak van DeepSeek opent een venster naar LLM-ontwikkeling voor kleinere organisaties die geen miljarden te besteden hebben. In feite is de dag niet ver weg waarop de meeste kleine organisaties hun eigen LLMs kunnen ontwikkelen om hun specifieke doelen te dienen, wat meestal een effectievere oplossing biedt dan algemene LLMs zoals ChatGPT.

Terwijl debat nog steeds gaande is over de werkelijke kosten van DeepSeek, is het niet alleen de kosten die het en soortgelijke modellen onderscheiden: Het is het feit dat het minder geavanceerde chips en een meer gefocuste aanpak voor training gebruikte. Als een Chinees bedrijf dat onderworpen is aan Amerikaanse exportbeperkingen, kon DeepSeek geen toegang krijgen tot de geavanceerde Nvidia-chips die gewoonlijk worden gebruikt voor de zware berekeningen die nodig zijn voor LLM-ontwikkeling, en was het daarom gedwongen om minder krachtige Nvidia H-800-chips te gebruiken, die de data niet zo snel of efficiënt kunnen verwerken.

Om die gebrek aan kracht te compenseren, nam DeepSeek een andere, meer gefocuste en directe aanpak voor zijn LLM-ontwikkeling. In plaats van bergen data naar een model te gooien en te vertrouwen op de rekenkracht om de data te labelen en toe te passen, heeft DeepSeek de training versmald, gebruik makend van een kleine hoeveelheid hoge kwaliteit “cold-start”-data en iteratieve versterking van het leerproces (IRL), waarbij de algoritme data toepast op verschillende scenario’s en daarvan leert). Deze gefocuste aanpak laat het model sneller leren, met minder fouten en minder verspilde rekenkracht.

Net zoals ouders een baby kunnen helpen bij het maken van specifieke bewegingen, waardoor het kind succesvol voor het eerst over de rug kan rollen – in plaats van de baby alleen te laten om het uit te vogelen of een bredere variëteit aan bewegingen te leren die in theorie zou kunnen helpen bij het rollen – zoomen de datawetenschappers die deze meer gefocuste AI-modellen trainen in op wat het meest nodig is voor bepaalde taken en resultaten. Dergelijke modellen hebben mogelijk niet zo’n brede betrouwbare toepassing als grotere LLMs zoals ChatGPT, maar ze kunnen worden vertrouwd voor specifieke toepassingen en die met precisie en efficiëntie uitvoeren. Zelfs de critici van DeepSeek geven toe dat de gestroomlijnde aanpak van de ontwikkeling de efficiëntie aanzienlijk verhoogde, waardoor het meer kon doen met veel minder.

Deze aanpak gaat over het geven van AI de beste invoer zodat het zijn mijlpalen op de slimste, meest efficiënte manier mogelijk kan bereiken, en kan waardevol zijn voor elke organisatie die een LLM wil ontwikkelen voor zijn specifieke behoeften en taken. Een dergelijke aanpak is steeds waardevoller voor kleine bedrijven en organisaties. De eerste stap is beginnen met de juiste data. Bijvoorbeeld, een bedrijf dat AI wil gebruiken om zijn verkoop- en marketingteams te helpen, moet zijn model trainen op een zorgvuldig geselecteerd dataset dat zich richt op verkoopgesprekken, -strategieën en -metrieken. Dit houdt het model tegen van het verspillen van tijd en rekenkracht aan irrelevante informatie. Bovendien moet de training in fasen worden opgebouwd, waarbij ervoor wordt gezorgd dat het model elk onderdeel of concept meester is voordat het naar het volgende gaat.

Dit heeft ook parallellen met het opvoeden van een baby, zoals ik zelf heb geleerd sinds ik een paar maanden geleden moeder ben geworden. In beide scenario’s voorkomt een geleide, stap-voor-stap-aanpak het verspillen van middelen en vermindert het de wrijving. Ten slotte leidt een dergelijke aanpak bij zowel baby’s als AI-modellen tot iteratieve verbetering. Naarmate de baby groeit of het model meer leert, verbeteren de capaciteiten. Dit betekent dat modellen kunnen worden verfijnd en verbeterd om beter om te gaan met echte situaties in de wereld.

Deze aanpak houdt de kosten laag, waardoor AI-projecten geen middelendrain worden, en maakt ze toegankelijker voor kleinere teams en organisaties. Het leidt ook tot een betere prestatie van AI-modellen in een kortere tijd; en omdat de modellen niet worden overbelast met overtollige data, kunnen ze ook worden aangepast om nieuwe informatie en veranderende bedrijfsbehoeften aan te passen – een cruciaal aspect in concurrerende markten.

De komst van DeepSeek en de wereld van lagere kosten en efficiëntere AI – hoewel het aanvankelijk paniek verspreidde in de AI-wereld en de aandelenmarkten – is over het algemeen een positieve ontwikkeling voor de AI-sector. De grotere efficiëntie en lagere kosten van AI, tenminste voor bepaalde gefocuste toepassingen, zullen uiteindelijk leiden tot meer gebruik van AI in het algemeen, wat groei stimuleert voor iedereen, van ontwikkelaars tot chipfabrikanten tot eindgebruikers. In feite illustreert DeepSeek Jevons Paradox – waar meer efficiëntie waarschijnlijk zal leiden tot meer gebruik van een middel, niet minder. Aangezien deze trend naar verwachting zal aanhouden, zullen kleine bedrijven die zich richten op het gebruik van AI om hun specifieke behoeften te vervullen, ook beter worden voorbereid op groei en succes.

Stav Levi-Neumark is de CEO & Co-founder van Alta en een expert in productmanagement en omzetgroei. Eerder was ze een van de eerste medewerkers bij Monday.com, waar ze heeft geholpen bij de ontwikkeling van "BigBrain", een intern BI-hulpmiddel dat wordt gebruikt voor de dagelijkse bedrijfsvoering. Stav heeft een BS.c in informatica en statistiek van de Hebreeuwse Universiteit van Jeruzalem.