Connect with us

Thought leaders

Waarom de “Beste LLM voor Marketing” Niet Bestaat

mm

Elke nieuwe grote taalmodelrelease komt met dezelfde beloften: grotere contextvensters, sterker redeneren en betere benchmarkprestaties. Dan, voordat je het weet, voelen marketeers met AI-ervaring een vertrouwde angst beginnen te krijgen. Valiet het model dat ze voor alles gebruiken al achterop? Is het de moeite waard om over te schakelen en alles van scratch opnieuw te trainen? Wat als ze niets doen en achterblijven?

Die angst is begrijpelijk. Het is ook misplaatst.

Als iemand die verantwoordelijk is voor het bouwen van de systemen waar marketeers elke dag op vertrouwen, zie ik dit patroon zich afspelen over teams en workflows lang voordat het in de headlines verschijnt.

Vanuit een product- en platformperspectief is het de afgelopen jaren steeds duidelijker geworden: er is geen enkel model dat consistent het beste presteert over alle marketingtaken heen. Met een frontrowstoel bij honderden marketingteams die wereldwijde campagnes lanceren terwijl de snelheid van modelinnovatie versnelt, is het duidelijk dat de eisen van marketingwerk in de praktijk te genuanceerd zijn voor een strategie met één model om over tijd stand te houden.

Het kiezen van het “juiste” model doet er niet toe, omdat geen enkel model voor elke taak het juiste is. Wat ertoe doet, is het ontwerpen van systemen die modellen voortdurend kunnen evalueren en koppelen aan het specifieke werk dat marketeers proberen te doen. Dit is niet iets dat individuele marketeers zelf moeten beheren, maar iets dat hun tools voor hen moeten doen. De praktische conclusie is eenvoudig: stop met vragen welk model het “beste” is en begin met vragen of je tools kunnen aanpassen als modellen veranderen.

Waarom “Best Model” Denken in Marketing Faalt

De meeste openbare discussies over LLM’s draaien om algemene benchmarks: wiskundeproblemen, redeneeruitdagingen, gestandaardiseerde examens. Deze benchmarks zijn nuttige signalen voor onderzoeksvooruitgang, maar ze zijn zwakke voorspellers van prestaties in de praktijk.

Marketinginhoud, in het bijzonder, heeft kenmerken die generieke benchmarks zelden vangen:

  • Het gaat altijd over een specifiek product of dienst
  • Het is altijd geschreven voor een gedefinieerd publiek
  • Het moet consistent de stem, toon en standaarden van een merk weerspiegelen

Bijvoorbeeld zien we consistent dat verschillende modellen uitblinken in verschillende soorten marketingwerk. Sommige zijn beter in het creëren van kopie in je merkstem van scratch, terwijl anderen beter presteren bij het begrijpen van complexe technische documenten en deze samen te vatten in blogposts. We leren dit door rigoureuze tests, omdat nieuwe mogelijkheden alleen waarde creëren als ze snel en realistisch worden geëvalueerd. Dus, bijvoorbeeld, toen Gemini 3 Pro eind november 2025 werd gelanceerd, integreerde en testte ons team het binnen 24 uur en maakte het beschikbaar voor een selecte groep klanten om de fit tegen echte marketingworkflows te beoordelen in plaats van abstracte benchmarks.

Dit patroon is niet anekdotisch. Onderzoek toont steeds vaker aan dat de prestaties van LLM’s sterk taakafhankelijk zijn, met modellen die betekenisvolle variatie vertonen over schrijf-, samenvatting-, redeneer- en instructievolgtaken. Een model dat goed presteert op algemene redeneertests kan nog steeds worstelen met beperkte, merkgevoelige inhoudsgeneratie.

Nog belangrijker, we zien deze verschuivingen op maand-tot-maand-basis. Modelleiderschap verandert naarmate aanbieders optimaliseren voor verschillende mogelijkheden, kostenstructuren en trainingsbenaderingen. Het idee dat één aanbieder “best” blijft over alle marketingusecases is al verouderd.

De Verborgen Kosten van het Achternalopen van Releases

Wanneer teams proberen om modelreleases handmatig bij te houden en gereactiveerd tools te schakelen, worden de operationele kosten vermeerderd. Marketeers ervaren:

  • Workflowonderbreking omdat prompts, sjablonen en processen constant moeten worden aangepast
  • Onconsistentie in de kwaliteit van de output omdat verschillende modellen verschillend gedragen over taken
  • Besluitvormingsmoeheid omdat evaluatietijd productief werk vervangt

Ik heb marketingteams zien besteden aan het migreren van de ene aanbieder naar de andere, alleen om te ontdekken dat hun zorgvuldig afgestemde prompts niet langer werken zoals verwacht. De inhoud die eerder op maat leek, leest nu anders. Teamleden die net comfortabel waren geworden met een workflow, staan nu voor een nieuwe leercurve. De beloofde prestatieverbeteringen materialiseren zelden op manieren die de verstoring rechtvaardigen.

Branchonderzoek toont consistent aan dat de meeste AI-waarde verloren gaat, niet op het modelniveau, maar in integratie en veranderingsbeheer. Vanuit een productstandpunt is het grootste risico het koppelen van workflows te strak aan één model. Dat creëert technische lock-in, wat verbetering moeilijker maakt over tijd.

Een Meer Duurzame Benadering: LLM-Geoptimaliseerde Systemen

Een meer veerkrachtige benadering is om te assumeren dat er sprake is van volatiliteit. En dan ontwerpen voor die volatiliteit.

In een LLM-geoptimaliseerd systeem worden modellen behandeld als uitwisselbare componenten in plaats van vaste afhankelijkheden. Prestaties worden voortdurend geëvalueerd met behulp van echte workflows, niet abstracte benchmarks. Verschillende modellen kunnen worden doorgestuurd naar verschillende taken op basis van waargenomen resultaten in plaats van theoretische mogelijkheden.

Dit kan betekenen dat social media-bijschriften worden doorgestuurd naar een model dat uitblinkt in bondigheid en punch, terwijl lange bloginhoud wordt doorgestuurd naar een ander model dat consistentie over duizenden woorden behoudt. Het agent dat helpt bij het opstellen van strategieën kan een derde model gebruiken dat beter is in redeneren. Het systeem neemt deze routeringsbeslissingen automatisch op basis van welk model het beste heeft getest voor elk specifiek taaktype.

Vanuit het perspectief van de gebruiker moet dit proces onzichtbaar zijn. Een analogie die ik hier graag gebruik, is die van de Franse keuken: elke component – saus, reductie, kruiden – heeft een techniek achter zich. De diner hoeft niet te weten waar elk ingrediënt vandaan komt. Hij ervaart gewoon een betere maaltijd.

Voor marketeers geldt hetzelfde principe. De onderliggende motor kan veranderen terwijl workflows stabiel blijven. Verbeteringen komen geleidelijk tot uiting in de vorm van betere merkconsistentie, hogere tevredenheid met inhoud en meer consistente resultaten, zonder dat teams elke paar maanden opnieuw tools moeten leren. In de praktijk betekent dit dat marketeers consistentere resultaten krijgen en minder workflowonderbrekingen, zelfs als modellen onder de motorkap veranderen.

Waarom Meting Meer Telt dan Benchmarks

Modelbeslissingen doen er alleen toe als ze meetbare verbeteringen opleveren in echte workflows. Openbare benchmarks bieden richtinggevende inzichten, maar ze beantwoorden geen marketing-specifieke operationele vragen zoals:

  • Past dit model de merkstem meer betrouwbaar toe?
  • Neemt het productkennis op met minder fouten?
  • Verkort het de bewerkings- of governanceknelpunten?

Recent onderzoek benadrukt het belang van human-in-the-loop-evaluatie en taak-specifieke tests voor toegepaste LLM-systemen. Op grote schaal zijn deze signalen veel voorspellender van waarde dan leaderboard-rankings.

De Agentic Shift Verhoogt de Inzet

Naarmate AI-systemen meer agentic worden, plannen, ontwerpen, itereren en uitvoeren met minder direct toezicht, neemt het belang van onderliggende modelselectie toe. Tegelijkertijd wordt het minder haalbaar voor mensen om elke beslissing te superviseren.

Dit weerspiegelt het huidige onderzoek naar agentic-systemen, dat benadrukt dat tool- en modelkeuze een aanzienlijke invloed heeft op betrouwbaarheid en veiligheid. In deze omgeving wordt modelselectie een infrastructuurbeslissing, niet een gebruikersvoorkeur. Het systeem zelf moet ervoor zorgen dat elk onderdeel van een workflow wordt aangedreven door het meest geschikte model op dat moment, op basis van waargenomen prestaties in plaats van gewoonte.

Verandering Opnemen in Plaats van Reageren

De headlines zullen blijven komen, nieuwe modellen zullen blijven worden gelanceerd, en leiderschap in LLM-prestaties zal blijven verschuiven.

Succes gaat over het bouwen van systemen die modelvolatiliteit kunnen opnemen in plaats van op elke release te reageren. Dit is hoe marketeers hun werk snel kunnen schalen, kwaliteit en merkconsistentie kunnen behouden en zich kunnen blijven richten op het werk dat daadwerkelijk impact heeft.

Ik geloof echt dat de toekomst van AI in marketing eruit bestaat om modelverandering irrelevant te maken voor de mensen die het werk doen. Immers, marketeers hebben veel belangrijker dingen te doen dan elke zes maanden modellen opnieuw te trainen.

Bryan Tsao is Chief Product Officer bij Jasper, het marketing agents platform, waar hij de Product, Engineering, Growth, en Data teams leidt. Voordat hij bij Jasper kwam, had hij senior leiderschapsrollen, waaronder VP of Growth en Data bij Dropbox, VP of Product en Design bij Namely, en VP of Product, Design, en Data bij Mattermark. Hij heeft een Master's degree in Information Management Systems van de University of California, Berkeley, en een Bachelor's degree in Cognitive Science van UC San Diego.