Connect with us

Kunstmatige intelligentie

Synthetische gegevens: een tweesnijdend zwaard voor de toekomst van AI

mm

De snelle groei van kunstmatige intelligentie (AI) heeft een enorme vraag naar gegevens gecreëerd. Traditioneel hebben organisaties vertrouwd op echte gegevens uit de werkelijke wereld – zoals afbeeldingen, tekst en audio – om AI-modellen te trainen. Deze aanpak heeft aanzienlijke vooruitgang geboekt op gebieden zoals natuurlijke taalverwerking, computerzicht en predictieve analyse. Echter, nu de beschikbaarheid van echte gegevens uit de werkelijke wereld haar limieten bereikt, komt synthetische gegevens naar voren als een kritieke bron voor AI-ontwikkeling. Hoewel veelbelovend, introduceert deze aanpak ook nieuwe uitdagingen en implicaties voor de toekomst van technologie.

De opkomst van synthetische gegevens

Synthetische gegevens zijn kunstmatig gegenereerde informatie die is ontworpen om de kenmerken van echte gegevens uit de werkelijke wereld te repliceren. Het wordt gegenereerd met behulp van algoritmen en simulaties, waardoor het mogelijk wordt om gegevens te produceren die zijn ontworpen om specifieke behoeften te dienen. Bijvoorbeeld kunnen generatieve tegenstrijdige netwerken (GAN’s) fotorealistische afbeeldingen produceren, terwijl simuleringsmotoren scenario’s genereren voor het trainen van autonome voertuigen. Volgens Gartner zal synthetische gegevens tegen 2030 de primaire bron voor AI-training worden.

Deze trend wordt gedreven door verschillende factoren. Ten eerste gaan de groeiende eisen van AI-systemen de snelheid waarin mensen nieuwe gegevens kunnen produceren ver te boven. Naarmate echte gegevens uit de werkelijke wereld steeds schaarser worden, biedt synthetische gegevens een schaalbare oplossing om aan deze eisen te voldoen. Generatieve AI-hulpmiddelen zoals OpenAI’s ChatGPT en Google’s Gemini dragen hier verder aan bij door grote hoeveelheden tekst en afbeeldingen te genereren, de voorkomens van synthetische inhoud online te vergroten. Als gevolg hiervan wordt het steeds moeilijker om originele en AI-gegenereerde inhoud te onderscheiden. Met het groeiende gebruik van online gegevens voor het trainen van AI-modellen, zal synthetische gegevens waarschijnlijk een cruciale rol spelen in de toekomst van AI-ontwikkeling.

Efficiëntie is ook een belangrijke factor. Het voorbereiden van echte gegevenssets – van verzameling tot labelen – kan tot 80% van de AI-ontwikkeltijd in beslag nemen. Synthetische gegevens kan daarentegen sneller, goedkoper en aangepast aan specifieke toepassingen worden gegenereerd. Bedrijven zoals NVIDIA, Microsoft en Synthesis AI hebben deze aanpak overgenomen, waarbij synthetische gegevens worden gebruikt om echte gegevenssets aan te vullen of zelfs te vervangen in sommige gevallen.

De voordelen van synthetische gegevens

Synthetische gegevens biedt talrijke voordelen voor AI, waardoor het een aantrekkelijk alternatief wordt voor bedrijven die hun AI-inspanningen willen opschalen.

Een van de belangrijkste voordelen is het mitigeren van privacyrisico’s. Reguleringskaders zoals GDPR en CCPA stellen strikte eisen aan het gebruik van persoonlijke gegevens. Door synthetische gegevens te gebruiken die nauw overeenkomen met echte gegevens uit de werkelijke wereld zonder gevoelige informatie te onthullen, kunnen bedrijven aan deze regelgeving voldoen en tegelijkertijd hun AI-modellen blijven trainen.

Een ander voordeel is de mogelijkheid om evenwichtige en onbevooroordeelde gegevenssets te creëren. Echte gegevens uit de werkelijke wereld weerspiegelen vaak societal vooroordelen, waardoor AI-modellen onbewust deze vooroordelen in stand houden. Met synthetische gegevens kunnen ontwikkelaars datasets zorgvuldig ontwerpen om eerlijkheid en inclusiviteit te garanderen.

Synthetische gegevens geeft organisaties ook de mogelijkheid om complexe of zeldzame scenario’s te simuleren die moeilijk of gevaarlijk zijn om in de werkelijke wereld te repliceren. Het trainen van autonome drones om door gevaarlijke omgevingen te navigeren kan bijvoorbeeld veilig en efficiënt worden gedaan met synthetische gegevens.

Bovendien biedt synthetische gegevens flexibiliteit. Ontwikkelaars kunnen synthetische gegevenssets genereren om specifieke scenario’s of variaties te includeren die ondervertegenwoordigd zijn in echte gegevens uit de werkelijke wereld. Synthetische gegevens kan bijvoorbeeld diverse weersomstandigheden simuleren voor het trainen van autonome voertuigen, waardoor de AI betrouwbaar presteert in regen, sneeuw of mist – situaties die mogelijk niet uitgebreid worden vastgelegd in echte rijdatasets.

Verder is synthetische gegevens schaalbaar. Het algoritme-genereren van gegevens maakt het bedrijven mogelijk om enorme gegevenssets te creëren in een fractie van de tijd en tegen een fractie van de kosten die nodig zijn om echte gegevens uit de werkelijke wereld te verzamelen en te labelen. Deze schaalbaarheid is vooral gunstig voor start-ups en kleinere organisaties die niet over de middelen beschikken om grote gegevenssets te verzamelen.

De risico’s en uitdagingen

Ondanks de voordelen heeft synthetische gegevens ook beperkingen en risico’s. Een van de meest dringende zorgen is het potentieel voor onnauwkeurigheden. Als synthetische gegevens er niet in slaagt om echte patronen uit de werkelijke wereld nauwkeurig te representeren, kunnen de AI-modellen die hierop zijn getraind slecht presteren in praktische toepassingen. Dit probleem, vaak aangeduid als model collapse, benadrukt het belang van het behouden van een sterke verbinding tussen synthetische en echte gegevens uit de werkelijke wereld.

Een andere beperking van synthetische gegevens is het onvermogen om de volledige complexiteit en onvoorspelbaarheid van scenario’s uit de werkelijke wereld te vangen. Echte gegevenssets weerspiegelen inherent de nuances van menselijk gedrag en omgevingsvariabelen, die moeilijk te repliceren zijn via algoritmen. AI-modellen die uitsluitend op synthetische gegevens zijn getraind, kunnen moeite hebben om effectief te generaliseren, waardoor suboptimale prestaties ontstaan wanneer ze in dynamische of onvoorspelbare omgevingen worden ingezet.

Er is ook het risico van overmatige afhankelijkheid van synthetische gegevens. Hoewel het echte gegevens kan aanvullen, kan het deze niet volledig vervangen. AI-modellen hebben nog steeds een zekere mate van verankering in werkelijke observaties nodig om betrouwbaarheid en relevantie te behouden. Overmatige afhankelijkheid van synthetische gegevens kan leiden tot modellen die niet effectief generaliseren, met name in dynamische of onvoorspelbare omgevingen.

Ethische zorgen spelen ook een rol. Hoewel synthetische gegevens sommige privacyproblemen aanpakt, kan het een vals gevoel van veiligheid creëren. Slecht ontworpen synthetische datasets kunnen onbewust vooroordelen of onnauwkeurigheden bevatten, waardoor inspanningen om eerlijke en gelijkwaardige AI-systemen te bouwen, worden ondermijnd. Dit is met name zorgwekkend in gevoelige domeinen zoals gezondheidszorg of strafrecht, waar de inzet hoog is en onbedoelde gevolgen aanzienlijke implicaties kunnen hebben.

Tenslotte vereist het genereren van hoogwaardige synthetische gegevens geavanceerde hulpmiddelen, expertise en rekenbronnen. Zonder zorgvuldige validatie en benchmarking kunnen synthetische datasets de industrienormen niet halen, waardoor onbetrouwbare AI-resultaten ontstaan. Het is cruciaal om ervoor te zorgen dat synthetische gegevens overeenkomen met scenario’s uit de werkelijke wereld.

De weg vooruit

Het aanpakken van de uitdagingen van synthetische gegevens vereist een evenwichtige en strategische aanpak. Organisaties moeten synthetische gegevens behandelen als een aanvulling op echte gegevens uit de werkelijke wereld, in plaats van een vervanging, en de krachten van beide combineren om robuuste AI-modellen te creëren.

Validatie is kritiek. Synthetische datasets moeten zorgvuldig worden geëvalueerd op kwaliteit, overeenstemming met scenario’s uit de werkelijke wereld en potentieel voor vooroordelen. Het testen van AI-modellen in werkelijke omgevingen waarborgt hun betrouwbaarheid en effectiviteit.

Ethische overwegingen moeten centraal blijven. Duidelijke richtlijnen en verantwoordingsmechanismen zijn essentieel om de verantwoorde gebruik van synthetische gegevens te waarborgen. Inspanningen moeten zich ook richten op het verbeteren van de kwaliteit en geloofwaardigheid van synthetische gegevens via vooruitgang in generatieve modellen en validatiekaders.

Samenwerking tussen industrie en academische wereld kan het verantwoorde gebruik van synthetische gegevens verder versterken. Door het delen van beste praktijken, het ontwikkelen van standaarden en het bevorderen van transparantie, kunnen belanghebbenden collectief uitdagingen aanpakken en de voordelen van synthetische gegevens maximaliseren.

Dr. Tehseen Zia is een gewaardeerd associate professor aan de COMSATS University Islamabad, met een PhD in AI van de Vienna University of Technology, Oostenrijk. Hij specialiseert zich in Artificial Intelligence, Machine Learning, Data Science en Computer Vision, en heeft significante bijdragen geleverd met publicaties in gerenommeerde wetenschappelijke tijdschriften. Dr. Tehseen heeft ook verschillende industriële projecten geleid als hoofdonderzoeker en heeft gediend als AI-consultant.