Prompt Engineering

Aktuelle Moderne Fortschritte in der Prompt-Engineering: Ein umfassender Leitfaden

Veröffentlicht am 27. Mai 2024

Aktualisiert am 21. Mai 2026

Von

Aayush Mittal Mittal

Prompt-Engineering, die Kunst und Wissenschaft, Anfragen zu erstellen, die die gewünschten Antworten von LLMs erzeugen, ist zu einem entscheidenden Forschungs- und Entwicklungsgebiet geworden.

Von der Verbesserung der Denkfähigkeiten bis hin zur ermöglichten nahtlosen Integration mit externen Tools und Programmen eröffnen die neuesten Fortschritte in der Prompt-Engineering neue Grenzen in der künstlichen Intelligenz. Wir diskutieren unten die neuesten bahnbrechenden Techniken und Strategien, die die Zukunft der Prompt-Engineering prägen.

Prompt-Engineering

Erweiterte Prompting-Strategien für komplexe Problemlösung

Während CoT-Prompting sich für viele Denkaufgaben als effektiv erwiesen hat, haben Forscher erweiterte Prompting-Strategien erforscht, um noch komplexere Probleme zu lösen. Ein solcher Ansatz ist das Least-to-Most-Prompting, das ein komplexes Problem in kleinere, handhabbarere Teilprobleme aufteilt, die unabhängig voneinander gelöst und dann kombiniert werden, um zur endgültigen Lösung zu gelangen.

Eine weitere innovative Technik ist das Tree-of-Thoughts-(ToT)-Prompting, das es dem LLM ermöglicht, mehrere Denklinien oder “Gedanken” parallel zu generieren, seinen eigenen Fortschritt zur Lösung zu bewerten und bei Bedarf zurückzutreten oder alternative Pfade zu erkunden. Dieser Ansatz nutzt Suchalgorithmen wie Breadth-First- oder Depth-First-Search, um dem LLM die Fähigkeit zu geben, während des Problemlösungsprozesses vor- und rückwärts zu denken.

Integration von LLMs mit externen Tools und Programmen

LLMs sind zwar unglaublich leistungsfähig, haben jedoch inhärente Einschränkungen, wie z.B. die Unfähigkeit, auf aktuelle Informationen zuzugreifen oder präzise mathematische Berechnungen durchzuführen. Um diese Nachteile zu überwinden, haben Forscher Techniken entwickelt, die es LLMs ermöglichen, nahtlos mit externen Tools und Programmen zu integrieren.

Ein bemerkenswertes Beispiel ist Toolformer, das LLMs dazu bringt, Szenarien zu identifizieren, die die Verwendung externer Tools erfordern, das zu verwendende Tool zu spezifizieren, relevante Eingaben bereitzustellen und die Ausgabe des Tools in die endgültige Antwort zu integrieren. Dieser Ansatz beinhaltet die Erstellung eines synthetischen Trainingsdatensatzes, der die ordnungsgemäße Verwendung verschiedener Text-zu-Text-APIs demonstriert.

Ein weiterer innovativer Rahmen, Chameleon, verwendet einen “Plug-and-Play”-Ansatz, der es einem zentralen LLM-basierten Controller ermöglicht, natürliche Sprachprogramme zu generieren, die eine breite Palette von Tools, einschließlich LLMs, Vision-Modellen, Web-Suchmaschinen und Python-Funktionen, komponieren und ausführen. Dieser modulare Ansatz ermöglicht es Chameleon, komplexe, multimodale Denkaufgaben zu lösen, indem es die Stärken verschiedener Tools und Modelle nutzt.

Grundlegende Prompting-Strategien

Zero-Shot-Prompting

Zero-Shot-Prompting beinhaltet die Beschreibung der Aufgabe in der Anfrage und die Aufforderung an das Modell, die Aufgabe ohne Beispiele zu lösen. Zum Beispiel könnte ein Zero-Shot-Prompt für die Übersetzung von “Käse” ins Französische lauten:

Übersetzen Sie das folgende englische Wort ins Französische: Käse.

Dieser Ansatz ist einfach, kann jedoch durch die Mehrdeutigkeit der Aufgabenbeschreibung eingeschränkt sein.

Few-Shot-Prompting

Few-Shot-Prompting verbessert Zero-Shot-Prompting, indem es mehrere Beispiele der Aufgabe enthält. Zum Beispiel:

Übersetzen Sie die folgenden englischen Wörter ins Französische:

1. Apfel => Apfel

2. Haus => Haus

3. Käse => Käse

Diese Methode reduziert die Mehrdeutigkeit und bietet dem Modell eine klarere Anleitung, indem es die Fähigkeit des LLMs zur Kontextlernen nutzt.

Anweisungs-Prompting

Anweisungs-Prompting beschreibt die gewünschte Ausgabe explizit, was insbesondere bei Modellen wirksam ist, die für die Befolgung von Anweisungen trainiert wurden. Zum Beispiel:

Übersetzen Sie das Wort "Käse" ins Französische. Die korrekte Übersetzung ist "Käse".

Modelle wie GPT-4 wurden speziell für die Befolgung solcher Anweisungen feinabgestimmt.

Erweiterte Prompting-Techniken

Verbesserung der Denkfähigkeiten mit Chain-of-Thought-Prompting

Einer der bedeutendsten Durchbrüche in der Prompt-Engineering war die Entwicklung des Chain-of-Thought-(CoT)-Promptings. Diese Technik zielt darauf ab, die Denkfähigkeiten von LLMs zu erzeugen und zu verbessern, indem sie dazu ermutigt werden, einen schrittweisen Denkprozess oder eine Begründung zu generieren, bevor sie die endgültige Antwort liefern.

Links: Traditionelle Methoden des Promptings von LLMs basieren auf generischen Eingaben (0-Shot-CoT) oder erfordern beschriftete Beispiele (Few-Shot-CoT). Rechts: Der neue Ansatz fordert LLMs auf, relevante Beispiele vor der Problemlösung selbst zu erstellen, wodurch die Notwendigkeit von Beschriftung entfällt und Beispiele an jedes einzigartige Problem angepasst werden.

CoT-Prompting funktioniert, indem dem LLM Beispiele präsentiert werden, die nicht nur die Eingabe und Ausgabe enthalten, sondern auch die Zwischenschritte oder die “Denklinie”, die zur Lösung führt. Durch das Lernen von diesen Beispielen kann der LLM dann seine eigene Denklinie generieren, wenn er mit neuen Problemen konfrontiert wird, und so seine Fähigkeit verbessern, komplexe Denkaufgaben zu lösen.

Beispiel:

Eingabe: Natalie hat 3 Äpfel und möchte sie gleichmäßig mit ihren 2 Freunden teilen. Wie viele Äpfel wird jede Person bekommen? Denklinie: Okay, lass uns das Schritt für Schritt aufteilen:

Natalie hat 3 Äpfel
Sie möchte sie gleichmäßig mit 2 Freunden teilen
Also gibt es insgesamt 3 Personen (Natalie und ihre 2 Freunde)
Um die Äpfel gleichmäßig zu teilen, teilen wir die Gesamtzahl der Äpfel (3) durch die Anzahl der Personen (3)
3 geteilt durch 3 ist 1
Jede Person wird also 1 Apfel bekommen. Ausgabe: Jede Person wird 1 Apfel bekommen.

Durch die explizite Generierung des Denkprozesses haben LLMs wie GPT-3 und Codex wesentliche Verbesserungen in arithmetischen, alltäglichen und symbolischen Denkaufgaben gezeigt.

Selbstkonsistenz

Selbstkonsistenz verbessert die Zuverlässigkeit des CoT-Promptings, indem es mehrere Denklinien generiert und eine Mehrheitsentscheidung über die endgültige Antwort trifft. Diese Methode mindert die Auswirkungen eines einzelnen fehlerhaften Denkwegs.

Least-to-Most-Prompting

Least-to-Most-Prompting teilt komplexe Probleme in einfachere Teilprobleme auf, löst jedes davon sequenziell und nutzt den Kontext der vorherigen Lösungen, um die nachfolgenden Schritte zu informieren. Dieser Ansatz ist vorteilhaft für mehrschrittige Denkaufgaben.

Neue Entwicklungen in der Prompt-Engineering

Die Prompt-Engineering entwickelt sich rasant, und mehrere innovative Techniken sind entstanden, um die Leistung von Large Language Models (LLMs) zu verbessern. Lassen Sie uns einige dieser bahnbrechenden Methoden im Detail betrachten:

Auto-CoT (Automatisches Chain-of-Thought-Prompting)

Was es ist: Auto-CoT ist eine Methode, die die Generierung von Denklinien für LLMs automatisiert, wodurch die Notwendigkeit von manuell erstellten Beispielen entfällt. Diese Technik nutzt Zero-Shot-Chain-of-Thought-Prompting, bei dem das Modell durch schrittweises Denken zur Generierung seiner Denklinien angeregt wird.

Wie es funktioniert:

Zero-Shot-CoT-Prompting: Das Modell erhält einen einfachen Prompt wie “Lass uns schrittweise denken”, um detailliertes Denken zu fördern.
Vielfalt in Beispielen: Auto-CoT wählt vielfältige Fragen aus und generiert Denklinien für diese Fragen, um eine Vielzahl von Problemtypen und Denkmustern zu gewährleisten.

Vorteile:

Automatisierung: Reduziert den manuellen Aufwand, der für die Erstellung von Denklinien erforderlich ist.
Leistung: Auto-CoT hat auf verschiedenen Denkaufgaben die Leistung von manuellem CoT-Prompting erreicht oder übertroffen.

Komplexitätsbasiertes Prompting

Was es ist: Diese Technik wählt Beispiele mit der höchsten Komplexität (d.h. die meisten Denkschritte) aus, um sie in den Prompt aufzunehmen. Sie zielt darauf ab, die Leistung des Modells bei Aufgaben zu verbessern, die mehrere Denkschritte erfordern.

Wie es funktioniert:

Auswahl von Beispielen: Prompts werden basierend auf der Anzahl der Denkschritte ausgewählt, die sie enthalten.
Komplexitätsbasierte Konsistenz: Während der Dekodierung werden mehrere Denklinien ausprobiert, und die Mehrheitsentscheidung wird aus den komplexesten Linien getroffen.

Vorteile:

Verbesserte Leistung: Wesentlich bessere Genauigkeit bei Aufgaben, die mehrere Denkschritte erfordern.
Robustheit: Effektiv auch unter verschiedenen Prompt-Verteilungen und bei verrauschtem Datenmaterial.

Progressives Hinweis-Prompting (PHP)

Was es ist: PHP verfeinert die Antworten des Modells schrittweise, indem es zuvor generierte Begründungen als Hinweise verwendet. Diese Methode nutzt die vorherigen Antworten des Modells, um es durch multiple Iterationen zur korrekten Antwort zu führen.

Wie es funktioniert:

Erste Antwort: Das Modell generiert eine Basisantwort mithilfe eines Standardprompts.
Hinweise und Verfeinerungen: Diese Basisantwort wird dann als Hinweis in nachfolgenden Prompts verwendet, um die Antwort zu verfeinern.
Iterativer Prozess: Dieser Prozess wird fortgesetzt, bis die Antwort über aufeinanderfolgende Iterationen stabil bleibt.

Vorteile:

Genauigkeit: Signifikante Verbesserungen in der Denkgenauigkeit.
Effizienz: Reduziert die Anzahl der erforderlichen Stichproben, was die Rechenleistung verbessert.

Decomponiertes Prompting (DecomP)

Was es ist: DecomP teilt komplexe Aufgaben in einfachere Teilprobleme auf, die jeweils von einem spezifischen Prompt oder Modell bearbeitet werden. Dieser modulare Ansatz ermöglicht eine effektivere Handhabung komplexer Probleme.

Wie es funktioniert:

Aufgabenzerlegung: Das Hauptproblem wird in einfachere Teilprobleme zerlegt.
Teilproblemlöser: Jedes Teilproblem wird von einem speziellen Modell oder Prompt bearbeitet.
Modulare Integration: Diese Löser können optimiert, ersetzt oder wie erforderlich kombiniert werden, um das komplexe Problem zu lösen.

Vorteile:

Flexibilität: Einfach zu debuggen und zu verbessern.
Skalierbarkeit: Behandelt Aufgaben mit langen Kontexten und komplexen Teilproblemen effektiv.

Hypothesen-zu-Theorien-Prompting (HtT)

Was es ist: HtT nutzt einen wissenschaftlichen Entdeckungsprozess, bei dem das Modell Hypothesen generiert und überprüft, um komplexe Probleme zu lösen. Diese Methode beinhaltet die Erstellung einer Regelsammlung aus überprüften Hypothesen, die das Modell für die Argumentation nutzt.

Wie es funktioniert:

Induktionsphase: Das Modell generiert potenzielle Regeln und überprüft sie anhand von Trainingsbeispielen.
Regelsammlung: Überprüfte Regeln werden gesammelt, um eine Regelsammlung zu bilden.
Deduktionsphase: Das Modell wendet diese Regeln auf neue Probleme an, indem es die Regelsammlung als Leitfaden für seine Argumentation nutzt.

Vorteile:

Genauigkeit: Reduziert die Wahrscheinlichkeit von Fehlern, indem es auf eine überprüfte Menge von Regeln setzt.
Übertragbarkeit: Die gelernten Regeln können auf verschiedene Modelle und Problemformen übertragen werden.

Tool-erweiterte Prompting-Techniken

Toolformer

Toolformer integriert LLMs mit externen Tools über Text-zu-Text-APIs, ermöglicht es dem Modell, diese Tools zu nutzen, um Probleme zu lösen, die es sonst nicht lösen könnte. Zum Beispiel könnte ein LLM einen Rechner-API aufrufen, um arithmetische Operationen durchzuführen.

Chameleon

Chameleon verwendet einen zentralen LLM-basierten Controller, um ein Programm zu generieren, das eine Vielzahl von Tools komponiert und ausführt, um komplexe Denkaufgaben zu lösen. Dieser Ansatz nutzt eine breite Palette von Tools, einschließlich Vision-Modellen und Web-Suchmaschinen, um die Problemlösungsfähigkeiten zu erweitern.

GPT4Tools

GPT4Tools feinabstimmt Open-Source-LLMs, um multimodale Tools über einen Selbstunterrichtsansatz zu nutzen, und zeigt, dass auch nicht-proprietäre Modelle externe Tools effektiv für eine verbesserte Leistung nutzen können.

Gorilla und HuggingGPT

Sowohl Gorilla als auch HuggingGPT integrieren LLMs mit spezialisierten Deep-Learning-Modellen, die online verfügbar sind. Diese Systeme nutzen einen retrieval-bewussten Feinabstimmprozess und einen Planungs- und Koordinationsansatz, um komplexe Aufgaben zu lösen, die mehrere Modelle erfordern.

Programm-unterstützte Sprachmodelle (PALs) und Programme von Gedanken (PoTs)

Neben der Integration mit externen Tools haben Forscher Wege erforscht, um die Problemlösungsfähigkeiten von LLMs zu verbessern, indem sie natürliche Sprache mit Programmierkonstrukten kombinieren. Programm-unterstützte Sprachmodelle (PALs) und Programme von Gedanken (PoTs) sind zwei solche Ansätze, die Code nutzen, um den Denkprozess des LLMs zu erweitern.

PALs fordern das LLM auf, eine Begründung zu generieren, die natürliche Sprache mit Code (z.B. Python) vermischt, der dann ausgeführt werden kann, um die endgültige Lösung zu produzieren. Dieser Ansatz adressiert einen häufigen Fehlerfall, in dem LLMs korrektes Denken generieren, aber eine falsche endgültige Antwort liefern.

Ähnlich verwenden PoTs eine symbolische Mathematik-Bibliothek wie SymPy, die es dem LLM ermöglicht, mathematische Symbole und Ausdrücke zu definieren, die dann mit SymPys Lösefunktion kombiniert und ausgewertet werden können. Indem komplexe Berechnungen an einen Code-Interpreter delegiert werden, ermöglichen diese Techniken eine Trennung von Denken und Berechnung, wodurch LLMs komplexe Probleme effektiver lösen können.

Verständnis und Nutzung von Kontextfenstern

Die Leistung von LLMs hängt stark von ihrer Fähigkeit ab, den im Prompt bereitgestellten Kontext zu verarbeiten und zu nutzen. Forscher haben untersucht, wie LLMs mit langen Kontexten umgehen und welche Auswirkungen irrelevante oder ablenkende Informationen auf ihre Ausgaben haben.

Das “Verloren im Mittelpunkt”-Phänomen zeigt, wie LLMs tendenziell mehr Aufmerksamkeit auf Informationen am Anfang und Ende ihres Kontexts legen, während Informationen in der Mitte oft übersehen oder “verloren” werden. Diese Erkenntnis hat Auswirkungen auf die Prompt-Engineering, da die sorgfältige Platzierung relevanter Informationen innerhalb des Kontexts die Leistung erheblich beeinflussen kann.

Eine weitere Forschungsrichtung konzentriert sich auf die Minderung der nachteiligen Auswirkungen irrelevanter Kontextinformationen, die die Leistung von LLMs erheblich verschlechtern können. Techniken wie Selbstkonsistenz, explizite Anweisungen, irrelevante Informationen zu ignorieren, und die Einbeziehung von Beispielen, die das Lösen von Problemen mit irrelevanter Kontextinformation demonstrieren, können LLMs helfen, sich auf die wichtigsten Informationen zu konzentrieren.

Verbesserung der Schreibfähigkeiten mit Prompting-Strategien

Während LLMs hervorragend in der Lage sind, menschlich klingenden Text zu generieren, können ihre Schreibfähigkeiten durch spezielle Prompting-Strategien weiter verbessert werden. Eine solche Technik ist das Skeleton-of-Thought-(SoT)-Prompting, das darauf abzielt, die Latenz des sequenziellen Dekodierens zu reduzieren, indem es den menschlichen Schreibprozess nachahmt.

SoT-Prompting beinhaltet, dass das LLM zunächst ein Gerüst oder eine Gliederung seiner Antwort generiert, gefolgt von parallelen API-Aufrufen, um die Details jedes Gliederungselements auszufüllen. Dieser Ansatz verbessert nicht nur die Inferenzlatenz, sondern kann auch die Schreibqualität verbessern, indem er das LLM dazu anregt, seine Ausgabe effektiver zu planen und zu strukturieren.

Eine weitere Prompting-Strategie, Chain-of-Density-(CoD)-Prompting, konzentriert sich auf die Verbesserung der Informationsdichte von LLM-generierten Zusammenfassungen. Durch die schrittweise Hinzufügung von Entitäten zur Zusammenfassung, während die Länge festgehalten wird, ermöglicht CoD-Prompting den Benutzern, den Kompromiss zwischen Knappheit und Vollständigkeit zu erkunden, und produziert letztendlich informativere und lesbarere Zusammenfassungen.

Neue Entwicklungen und Zukunftsausblick

Erweiterte Prompt-Engineering

Das Feld der Prompt-Engineering entwickelt sich rasant, und Forscher erforschen kontinuierlich neue Grenzen und drängen die Möglichkeiten von LLMs voran. Einige neue Entwicklungen umfassen:

Aktives Prompting: Techniken, die unsicherheitsbasierte aktive Lernprinzipien nutzen, um die nützlichsten Beispiele für die Lösung spezifischer Denkaufgaben zu identifizieren und zu beschriften.
Multimodales Prompting: Erweiterung von Prompting-Strategien, um multimodale Eingaben zu bearbeiten, die Text, Bilder und andere Datenmodi kombinieren.
Automatische Prompt-Generierung: Entwicklung von Optimierungstechniken, um effektive Prompts automatisch zu generieren, die auf spezifische Aufgaben oder Domänen zugeschnitten sind.
Interpretierbarkeit und Erklärbarkeit: Erforschung von Prompting-Methoden, die die Interpretierbarkeit und Erklärbarkeit von LLM-Ausgaben verbessern, um mehr Transparenz und Vertrauen in ihre Entscheidungsprozesse zu ermöglichen.

Da LLMs weiterhin Fortschritte machen und in verschiedenen Domänen Anwendungen finden, wird die Prompt-Engineering eine entscheidende Rolle spielen, um ihr volles Potenzial zu entfalten. Durch die Nutzung der neuesten Prompting-Techniken und -Strategien können Forscher und Praktiker leistungsfähigere, zuverlässigere und aufgabenorientierte KI-Lösungen entwickeln, die die Grenzen des Möglichen im Bereich der natürlichen Sprachverarbeitung erweitern.

Schlussfolgerung

Das Feld der Prompt-Engineering für Large Language Models entwickelt sich rasant, und Forscher drängen kontinuierlich die Grenzen des Möglichen voran. Von der Verbesserung der Denkfähigkeiten mit Techniken wie Chain-of-Thought-Prompting bis hin zur Integration von LLMs mit externen Tools und Programmen eröffnen die neuesten Fortschritte in der Prompt-Engineering neue Grenzen in der künstlichen Intelligenz.

Aayush Mittal, Mittal

Ich habe die letzten fünf Jahre damit verbracht, mich in die faszinierende Welt des Machine Learning und Deep Learning zu vertiefen. Mein Engagement und meine Expertise haben mich dazu geführt, an über 50 verschiedenen Software-Entwicklungsprojekten mit einem besonderen Fokus auf AI/ML beizutragen. Meine anhaltende Neugier hat mich auch zum Bereich der Natural Language Processing hingezogen, einem Feld, das ich weiter erforschen möchte.