Prompt engineering

Prompt Hacking en Misbruik van LLM’s

Published October 19, 2023

Updated April 4, 2026

Aayush Mittal Mittal

Large Language Models kunnen gedichten schrijven, vragen beantwoorden en zelfs code schrijven. Toch brengen deze immense mogelijkheden inherente risico’s met zich mee. Dezelfde prompts die LLM’s in staat stellen om betekenisvolle dialogen te voeren, kunnen met kwaadwillige bedoelingen worden gemanipuleerd. Hacking, misbruik en het ontbreken van uitgebreide beveiligingsprotocollen kunnen deze technologische wonderen omtoveren in instrumenten van bedrog.

Sequoia Capital voorspelde dat “generatieve AI de efficiëntie en creativiteit van professionals kan verhogen met minstens 10%. Dit betekent dat ze niet alleen sneller en productiever zijn, maar ook meer vaardig dan voorheen.”

LLM-modellen die in de afgelopen drie jaar zijn gepubliceerd

Bron

De bovenstaande tijdbalk benadrukt de belangrijkste vooruitgang in GenAI van 2020 tot 2023. Belangrijke ontwikkelingen omvatten OpenAI’s GPT-3 en DALL·E-serie, GitHub’s CoPilot voor codering en de innovatieve Make-A-Video-serie voor videocreatie. Andere significante modellen zoals MusicLM, CLIP en PaLM zijn ook ontstaan. Deze doorbraken komen van toonaangevende technologiebedrijven zoals OpenAI, DeepMind, GitHub, Google en Meta.

OpenAI’s ChatGPT is een bekende chatbot die de mogelijkheden van OpenAI’s GPT-modellen benut. Hoewel het verschillende versies van de GPT-modellen heeft gebruikt, is GPT-4 de meest recente iteratie.

GPT-4 is een type LLM genaamd een auto-regressief model dat gebaseerd is op het transformers-model. Het is getraind met grote hoeveelheden tekst, zoals boeken, websites en menselijke feedback. Zijn basisfunctie is om het volgende woord in een zin te raden nadat hij de voorgaande woorden heeft gezien.

Hoe LLM output genereert

Zodra GPT-4 begint met antwoorden, gebruikt het de woorden die het al heeft gegenereerd om nieuwe te maken. Dit wordt de auto-regressieve functie genoemd. In eenvoudige woorden gebruikt het zijn voorgaande woorden om de volgende te voorspellen.

We leren nog steeds wat LLM’s kunnen en niet kunnen doen. Eén ding is duidelijk: de prompt is heel belangrijk. Zelfs kleine veranderingen in de prompt kunnen ervoor zorgen dat het model heel verschillende antwoorden geeft. Dit toont aan dat LLM’s gevoelig en soms onvoorspelbaar kunnen zijn.

Prompt Engineering

Dus is het maken van de juiste prompts heel belangrijk bij het gebruik van deze modellen. Dit wordt prompt engineering genoemd. Het is nog nieuw, maar het is cruciaal om de beste resultaten van LLM’s te krijgen. Iedereen die LLM’s gebruikt, moet het model en de taak goed begrijpen om goede prompts te maken.

Wat is Prompt Hacking?

In zijn kern houdt prompt hacking in dat de invoer van een model wordt gemanipuleerd om een gewenst, en soms ongewenst, resultaat te verkrijgen. Gezien de juiste prompts kan zelfs een goed getraind model misleidende of kwaadwillige resultaten produceren.

De basis van dit fenomeen ligt in de trainingsgegevens. Als een model tijdens zijn trainingsfase aan bepaalde soorten informatie of vooroordelen is blootgesteld, kunnen slimme individuen deze gaten of neigingen exploiteren door zorgvuldig prompts te maken.

De Architectuur: LLM en Zijn Kwetsbaarheden

LLM’s, vooral die zoals GPT-4, zijn gebouwd op een Transformer-architectuur. Deze modellen zijn enorm, met miljarden, of zelfs triljarden, parameters. De grote omvang zorgt ervoor dat ze indrukwekkende generalisatiecapaciteiten hebben, maar maakt ze ook kwetsbaar voor kwetsbaarheden.

Trainingsproces Begrijpen:

LLM’s ondergaan twee primaire trainingsfasen: pre-training en fine-tuning.

Tijdens de pre-training worden modellen blootgesteld aan enorme hoeveelheden tekstgegevens, waarbij ze grammatica, feiten, vooroordelen en zelfs enkele misvattingen van het web leren.

In de fine-tuningfase worden ze getraind op smallere datasets, soms gegenereerd met menselijke reviewers.

Aayush Mittal

Ik heb de afgelopen vijf jaar mezelf ondergedompeld in de fascinerende wereld van Machine Learning en Deep Learning. Mijn passie en expertise hebben me geleid om bij te dragen aan meer dan 50 uiteenlopende software-engineeringprojecten, met een bijzondere focus op AI/ML. Mijn voortdurende nieuwsgierigheid heeft me ook aangetrokken tot Natural Language Processing, een vakgebied dat ik graag verder wil verkennen.

Unite.AI

Prompt Hacking en Misbruik van LLM’s

Wat is Prompt Hacking?

De Architectuur: LLM en Zijn Kwetsbaarheden

Trainingsproces Begrijpen:

You may like