Connect with us

Thought leaders

De Onderhoudsval: Waarom AI Vibe Testing de Toekomst is van QA

mm

Kunstmatige intelligentie heeft het ritme van softwareontwikkeling veranderd. Met tools zoals GitHub Copilot en ChatGPT kan code nu in minuten worden gegenereerd in plaats van weken, en interfaces evolueren bijna dagelijks. Toch is kwaliteitsborging, de discipline die bedoeld is om betrouwbaarheid te beschermen, het kritiekste knelpunt in de industrie geworden. Wat ontwikkelaars eerder automatisering noemden, lijkt nu steeds meer handmatig. Tests falen niet omdat applicaties breken, maar omdat testsets dat doen.

Het probleem ligt niet in onze tools, maar in onze veronderstellingen. Jarenlang heeft de industrie kwaliteitsborging behandeld als een procedurele oefening, een reeks van klikken, checks en verificaties. Die mentaliteit was logisch toen software langzaam bewoog, maar dat is nu niet meer het geval. Het nieuwe tempo van ontwikkeling vraagt om tests die even snel kunnen aanpassen als de code die ze beschermen. Ik noem deze evolutie vibe testing, wat kwaliteitsborging is die intentie begrijpt, context interpreteert en reageert op verandering in plaats van eronder te bezwijken.

De cijfers onderstrepen de urgentie. De wereldwijde softwaretestmarkt overschreed $51,8 miljard in 2023 en wordt verwacht te groeien met 7 procent per jaar tot 2032. Het automatiseringstestsegment alleen, gewaardeerd op $28,1 miljard in 2023, wordt verwacht te groeien tot $55,2 miljard in 2028, een CAGR van 14,5 procent. Ondanks deze investeringen zitten QA-teams vast in reactieve cycli. Automatisering beloofde snelheid, maar leverde vaak broosheid. McKinsey heeft opgemerkt dat, ja, AI-geactiveerde softwareontwikkeling fundamenteel de manier verandert waarop producten van begin tot einde worden gebouwd en de leveringssnelheid verhoogt, maar het legt extra druk op testen en kwaliteitspraktijken om dat tempo bij te houden.

Automatisering beloofde te veel

Binnen organisaties herhaalt hetzelfde patroon zich. Teams brengen hun dagen door met het repareren van broze scripts die falen om redenen die niet gerelateerd zijn aan productkwaliteit. Een enkele wijziging in een gebruikersinterface, zoals een hernoemde knop, een nieuwe lay-out of een toegevoegde stap, kan honderden tests breken. Elke correctie genereert meer onderhoud. Dit heeft ertoe geleid dat automatisering hetzelfde is geworden als wat het probeerde te elimineren, namelijk repetitief werk.

Procedurele automatisering was gebaseerd op de veronderstelling dat interfaces stabiel blijven en gebruikersreizen voorspelbaar blijven. Die veronderstelling heeft de continue implementatie, A/B-testen en real-time personalisatie niet overleefd. Moderne systemen zijn van nature flexibel. De enige manier waarop QA kan bijhouden is door te leren gedrag en betekenis te interpreteren in plaats van statische coördinaten op een scherm.

Dit is de onderhoudsval. Automatisering die bedoeld was om ontwikkeling te versnellen, vertraagt het eigenlijk omdat het onderhoudsoverhead sneller groeit dan de geleverde waarde. Het paradox is een van de grootste mislukkingen van de moderne software-engineering.

Waarom generatieve AI het punt miste

De opkomst van generatieve AI gaf veel mensen in het veld hoop dat redding nabij was. Als AI code kon schrijven, kon het het zeker testen. Maar de realiteit is meer bescheiden. De meeste zogenaamde “AI voor QA”-tools vertrouwen nog steeds op zwakke logica. Ze genereren scripts sneller dan mensen, maar die scripts zijn nog steeds gebonden aan dezelfde selectors en afhankelijkheden die ons altijd hebben laten falen. Als gevolg daarvan toont een uitgebreide academische studie aan dat, ondanks de brede interesse in AI-geactiveerd testen, de daadwerkelijke adoptie in testteams beperkt blijft.

Deze systemen versnellen de handeling van het schrijven van tests zonder de handeling van kwaliteitsborging te transformeren. Ze kunnen Selenium-scripts met snelheid produceren, maar ze breken nog steeds als een UI-element verplaatst of een variabele naam verandert. En hoewel AI-testtools bestaan, waaronder van bedrijven die de ruimte al verder helpen, is de bredere industrieverschuiving nog niet gematerialiseerd. De meeste oplossingen focussen nog steeds op codegeneratie in plaats van intentiebegrip.

Van scripts naar semantiek

Echte transformatie vereist AI-systemen die begrijpen waarom een interactie ertoe doet, niet alleen hoe het wordt uitgevoerd. Vibe testing gaat verder dan procedurele nauwkeurigheid naar experientiële begrip. In plaats van te verifiëren dat “knop A leidt tot pagina B”, wordt beoordeeld of “de gebruiker het beoogde resultaat bereikt, zelfs als de interface is veranderd.”

Wanneer een bankapplicatie de inlogstroom opnieuw ontwerpt, breekt een traditionele suite, terwijl een vibe-testsystem intentie herkent en vervolgens het nieuwe pad vindt, het resultaat valideert en autonomously doorgaat. Het verschil bepaalt of QA innovatie mogelijk maakt of het tegenhoudt.

Deze benadering vermindert flakiness, vermindert onderhoudsoverhead en laat QA-teams toe om zich te concentreren op exploratoire testen en nieuwe functies in plaats van gebroken scripts te repareren. Op grote schaal wordt het niet alleen een technische verschuiving, maar ook een economische.

De economie van intentie

In financiële diensten, waar regelgevingsupdates constant zijn, heeft intentie-gebaseerde testen complianceverificatie schaalbaar gemaakt zonder evenredig de QA-teams uit te breiden. Het World Quality Report van Capgemini, Sogeti en OpenText beschrijft hoe kwaliteitsengineerteams gebruikmaken van AI en meer intelligente automatisering om alleen maar bij te houden met snellere leveringscycli en toenemende systeemcomplexiteit.

In e-commerce, waar interfaces continu evolueren door A/B-experimenten en personalisatie, hebben bedrijven die intentie-gedreven benaderingen aannemen, de testonderhoudstijd met ongeveer 40 procent vermindert binnen drie maanden. Enterprise SaaS-aanbieders die meerdere implementatieomgevingen beheren, gebruiken dezelfde logica om kwaliteit te behouden over alle varianten zonder overhead te verpletteren.

Deze patronen laten zien dat we het niet hebben over incrementele verbetering. We hebben het over een fundamentele verschuiving in wat economisch haalbaar is in QA.

Guardrails voor een autonome toekomst

Geen paradigmschuiving komt zonder voorbehoud. Systemen die zichzelf opnieuw opbouwen en herschrijven, vereisen nog steeds menselijke toezicht. AI kan domeinlogica verkeerd interpreteren als het niet getraind is op de juiste context. QA-leiders moeten rigoureuze validatieprocessen handhaven, vooral in gereguleerde sectoren waar fouten echte risico’s met zich meebrengen.

Uitlegbaarheid en traceerbaarheid worden ook kritiek. Naarmate QA slimmer wordt, moet elke test opnemen hoe het is geëvolueerd en waarom het is geslaagd of mislukt. In banken en verzekeringen is dat niveau van auditability een wettelijke vereiste.

Intelligente systemen zijn uitstekend in primaire gebruikersstromen, maar kunnen zeldzame of risicovolle gevallen missen. Beveiligingskwetsbaarheden, compliancescenario’s en data-integriteitsrandgevallen vertrouwen nog steeds op door mensen gemaakte tests en diepe domeinkennis. En culturele weerstand blijft echt. Teams die diep geworteld zijn in Selenium- of Cypress-workflows, zullen niet over een nacht ijs gaan.

De overgang vereist investeringen in training, veranderingen in het management en duidelijke demonstraties van waarde.

De verschuiving naar adaptieve QA

De bedrijven die vibe testing het meest effectief aannemen, delen een gemeenschappelijk patroon. Ze beginnen klein, vaak door een hoog-veranderlijke applicatiegebied te testen naast hun traditionele suites. Ze meten resultaten zorgvuldig, volgen onderhoudsuren en flakiness-rates, en breiden alleen uit als de resultaten duurzaam blijken te zijn. Ze investeren in het helpen van QA-engineers om te evolueren van scriptschrijvers naar intentiemodellen en directeuren van kwaliteit in plaats van uitvoerders. Ze integreren adaptieve AI rechtstreeks in hun DevOps-pijplijnen, zodat tests aanpassen als code verandert in plaats van te breken onder hen.

De bredere les is filosofisch evenzeer als technisch. Automatisering, zoals we het hebben beoefend, zocht naar het elimineren van onzekerheid door middel van controle. Vibe testing accepteert dat verandering constant is en ontwerpt ervoor. Het behandelt testen niet als een poort aan het einde van de ontwikkeling, maar als een levendige conversatie tussen code, gebruiker en systeem. Het resultaat is software die evolueert zonder integriteit te verliezen.

Kwaliteitsborging staat nu op een kruispunt. Een pad leidt dieper de onderhoudsval in, waar scripts zich vermenigvuldigen en innovatie stagneert. Het andere pad leidt naar adaptieve, intentie-gedreven testen, software die zichzelf goed genoeg begrijpt om het eigen gedrag te valideren. De keuze zal bepalen welke organisaties het tempo van de AI-versnelde toekomst bijhouden en welke vastzitten in het debuggen van het verleden.

Het komende decennium van QA zal niet worden gemeten door hoeveel we automatiseren, maar door hoeveel we begrijpen. En de winnaars zullen zijn die systemen bouwen die de pols van hun producten voelen, met andere woorden, de vibe, en dienovereenkomstig aanpassen.

Tal Barmeir is de mede-oprichter en CEO van BlinqIO, de eerste AI-testengineer die is gebouwd voor Playwright-gebaseerde automatisering. Het genereert, uitvoert en onderhoudt tests autonoom, waarmee Vibe Testing wordt geïntroduceerd — AI-gepowered validatie die in sync evolueert met de software die het test.

Ze is ook mede-oprichter en was CEO van Experitest, een SaaS B2B DevOps-bedrijf dat is overgenomen door TPG (NASDAQ: TPG). Voordat ze dat deed, had Tal verschillende leiderschapsrollen, waaronder posities bij Accenture (Londen, NYSE: ACN) en Comverse (Israël), waar ze diende als hoofd van marketing in de dienstendivisie en als Hi-Tech-strategiemanager, onder anderen.