Snelle techniek

Analoge en stap-terug-prompts: een duik in recente ontwikkelingen door Google DeepMind

gepubliceerd

6 maanden geleden

3 november 2023

Google DeepMind Prompt Engineering nieuw onderzoek

Introductie

Prompt engineering richt zich op het bedenken van effectieve prompts om Large Language Models (LLM's), zoals GPT-4, te begeleiden bij het genereren van de gewenste antwoorden. Een goed opgestelde vraag kan het verschil betekenen tussen een vaag of onnauwkeurig antwoord en een nauwkeurig, inzichtelijk antwoord.

In het bredere ecosysteem van AI is prompt engineering een van de vele methoden die worden gebruikt om nauwkeurigere en contextueel relevante informatie uit taalmodellen te extraheren. Anderen omvatten technieken zoals 'leave-shot learning', waarbij het model een paar voorbeelden krijgt om de taak te helpen begrijpen, en 'fine-tuning', waarbij het model verder wordt getraind op een kleinere dataset om zijn reacties te specialiseren.

Google DeepMind heeft onlangs twee artikelen gepubliceerd die zich verdiepen in snelle engineering en het potentieel ervan om reacties op meerdere situaties te verbeteren.

Deze artikelen maken deel uit van het voortdurende onderzoek in de AI-gemeenschap om de manier waarop we met taalmodellen communiceren te verfijnen en optimaliseren, en ze bieden nieuwe inzichten in het structureren van aanwijzingen voor een betere afhandeling van zoekopdrachten en database-interactie.

Dit artikel gaat dieper in op de details van deze onderzoekspapers en verduidelijkt de concepten, methodologieën en implicaties van de voorgestelde technieken, waardoor het zelfs toegankelijk wordt voor lezers met beperkte kennis van AI en NLP.

Paper 1: Grote taalmodellen als analoge redeneerders

Het eerste artikel, getiteld ‘Large Language Models as Analogical Reasoners’, introduceert een nieuwe benadering van prompting, genaamd Analogical Prompting. De auteurs, Michihiro Yasunaga, Xinyun Chen en anderen, halen inspiratie uit analoog redeneren – een cognitief proces waarbij mensen ervaringen uit het verleden gebruiken om nieuwe problemen aan te pakken.

Sleutelconcepten en methodologie

Analogical Prompting moedigt LLM's aan om zelf relevante voorbeelden of kennis in context te genereren voordat ze verder gaan met het oplossen van een bepaald probleem. Deze aanpak elimineert de noodzaak voor gelabelde voorbeelden, biedt algemeenheid en gemak, en past de gegenereerde voorbeelden aan elk specifiek probleem aan, waardoor aanpassingsvermogen wordt gegarandeerd.

Links: Traditionele methoden voor het aansporen van LLM's zijn afhankelijk van generieke input (0-shot CoT) of vereisen gelabelde voorbeelden (few-shot CoT). Rechts: De nieuwe aanpak zet LLM’s ertoe aan om zelf relevante voorbeelden te creëren voordat ze het probleem oplossen, waardoor de noodzaak voor labeling wordt weggenomen en de voorbeelden voor elk probleem worden aangepast.

Zelf gegenereerde voorbeelden

De eerste techniek die in het artikel wordt gepresenteerd, zijn zelf gegenereerde voorbeelden. Het idee is om de uitgebreide kennis die LLM's tijdens hun opleiding hebben verworven, te benutten om hen te helpen nieuwe problemen op te lossen. Het proces omvat het uitbreiden van een doelprobleem met instructies die het model ertoe aanzetten relevante problemen en oplossingen te herinneren of te genereren.

Gegeven een probleem krijgt het model bijvoorbeeld de opdracht om drie verschillende en relevante problemen op te roepen, deze te beschrijven en de oplossingen ervan uit te leggen. Dit proces is ontworpen om in één keer te worden uitgevoerd, waardoor de LLM relevante voorbeelden kan genereren en het initiële probleem naadloos kan oplossen. Het gebruik van '#'-symbolen in de aanwijzingen helpt bij het structureren van het antwoord, waardoor het overzichtelijker wordt en het model gemakkelijker te volgen is.

Belangrijke technische beslissingen die in het artikel naar voren worden gebracht, zijn onder meer de nadruk op het genereren van relevante en diverse exemplaren, de adoptie van een single-pass-aanpak voor meer gemak, en de bevinding dat het genereren van drie tot vijf exemplaren de beste resultaten oplevert.

Zelf gegenereerde kennis + voorbeelden

De tweede techniek, zelf gegenereerde kennis + voorbeelden, wordt geïntroduceerd om uitdagingen bij complexere taken, zoals het genereren van code, aan te pakken. In deze scenario's kunnen LLM's te veel vertrouwen op voorbeelden op een laag niveau en moeite hebben om te generaliseren bij het oplossen van de doelproblemen. Om dit te verzachten stellen de auteurs voor om de prompt uit te breiden met een extra instructie die het model aanmoedigt om kernconcepten in het probleem te identificeren en een tutorial of afhaalmaaltijden op hoog niveau te bieden.

Een kritische overweging is de volgorde waarin kennis en voorbeelden worden gegenereerd. De auteurs ontdekten dat het genereren van kennis vóór voorbeelden tot betere resultaten leidt, omdat het de LLM helpt zich te concentreren op de fundamentele probleemoplossende benaderingen in plaats van alleen op overeenkomsten op oppervlakkig niveau.

Voordelen en toepassingen

De analoge prompting-aanpak biedt verschillende voordelen. Het biedt gedetailleerde voorbeelden van redeneren zonder de noodzaak van handmatig labelen, en gaat in op de uitdagingen die gepaard gaan met 0-shot en weinig-shot chain-of-thought (CoT)-methoden. Bovendien zijn de gegenereerde voorbeelden afgestemd op individuele problemen, waardoor ze relevantere begeleiding bieden dan de traditionele, weinig-shot CoT, die vaste voorbeelden gebruikt.

Het artikel demonstreert de effectiviteit van deze aanpak bij verschillende redeneertaken, waaronder het oplossen van wiskundige problemen, het genereren van codes en andere redeneertaken in BIG-Bench.

De onderstaande tabellen geven prestatiestatistieken weer van verschillende aanwijzingsmethoden voor verschillende modelarchitecturen. Met name de methode “Zelf gegenereerde voorbeelden” overtreft consequent andere methoden in termen van nauwkeurigheid. Wat de GSM8K-nauwkeurigheid betreft, behaalt deze methode de hoogste prestaties op het PaLM2-model: 81.7%. Op dezelfde manier staat het wat betreft MATH-nauwkeurigheid bovenaan de grafiek op GPT3.5-turbo met 37.3%.

Prestaties op wiskundige taken, GSM8K en MATH

In de tweede tabel toont “Zelf gegenereerde kennis + voorbeelden” voor de modellen GPT3.5-turbo-16k en GPT4 de beste prestaties.

Prestaties bij Codeforces-codegeneratietaak

Paper 2: Doe een stapje terug: Redeneren oproepen via abstractie in grote taalmodellen

Overzicht

Het tweede papier, "Doe een stap terug: redeneren oproepen via abstractie in grote taalmodellen” presenteert Step-Back Prompting, een techniek die LLM's aanmoedigt om concepten op hoog niveau en eerste principes uit gedetailleerde voorbeelden te abstraheren. De auteurs, Huaixiu Steven Zheng, Swaroop Mishra en anderen, streven ernaar het redeneervermogen van LLM's te verbeteren door hen te begeleiden bij het volgen van een correct redeneerpad naar de oplossing.

Afbeelding van STEP-BACK PROMPTING door twee fasen van abstractie en redeneren, gestuurd door sleutelconcepten en principes.

Laten we een eenvoudiger voorbeeld maken met behulp van een eenvoudige wiskundevraag om de techniek van de 'stapterugvraag' te demonstreren:

Original Question: If a train travels at a speed of 60 km/h and covers a distance of 120 km, how long will it take?

Options:

3 hours
2 hours
1 hour
4 hours
Original Answer [Incorrect]: The correct answer is 1).

Stepback Question: What is the basic formula to calculate time given speed and distance?

Principles:
To calculate time, we use the formula:
Time = Distance / Speed

Final Answer:
Using the formula, Time = 120 km / 60 km/h = 2 hours.
The correct answer is 2) 2 hours.

Hoewel LLM's tegenwoordig gemakkelijk de bovenstaande vraag kunnen beantwoorden, is dit voorbeeld alleen bedoeld om te demonstreren hoe de stepback-techniek zou werken. Voor meer uitdagende scenario's kan dezelfde techniek worden toegepast om het probleem systematisch te ontleden en aan te pakken. Hieronder ziet u een complexer geval dat in het artikel wordt gedemonstreerd:

STAP-TERUG VRAGEN over de MMLU-Chemistry-dataset