Vernetzen Sie sich mit uns

Vordenker

Wie Large Language Models (LLM) die Apps der Zukunft antreiben werden

mm

Veröffentlicht

 on

Generative KI und insbesondere deren Sprachgeschmack – ChatGPT ist überall. Die Large Language Model (LLM)-Technologie wird eine bedeutende Rolle bei der Entwicklung zukünftiger Anwendungen spielen. LLMs sind sehr gut darin, Sprache zu verstehen, da für Grundmodelle ein umfangreiches Vortraining auf Billionen von Zeilen gemeinfreien Textes, einschließlich Code, durchgeführt wurde. Methoden wie Supervised Fine-Tuning und Reinforced Learning with Human Feedback (RLHF) machen diese LLM noch effizienter bei der Beantwortung spezifischer Fragen und der Kommunikation mit Benutzern. Während wir in die nächste Phase von KI-Apps auf Basis von LLMs eintreten, wird die Befolgung von Schlüsselkomponenten für diese Anwendungen der nächsten Generation von entscheidender Bedeutung sein. Die folgende Abbildung zeigt diesen Fortschritt. Je weiter Sie in der Kette aufsteigen, desto intelligenter und autonomer werden Ihre Anwendungen. Schauen wir uns diese verschiedenen Ebenen an.

LLM-Anrufe:

Hierbei handelt es sich um direkte Calls-to-Completion- oder Chat-Modelle eines LLM-Anbieters wie Azure OpenAI oder Google PaLM oder Amazon Bedrock. Diese Aufrufe haben eine sehr einfache Eingabeaufforderung und nutzen meist den internen Speicher des LLM, um die Ausgabe zu erzeugen.

Beispiel: Ein Basismodell wie „text-davinci“ bitten, „einen Witz zu erzählen“. Sie geben nur sehr wenig Kontext an und das Modell verlässt sich auf seinen internen, vorab trainierten Speicher, um eine Antwort zu finden (in der Abbildung unten grün hervorgehoben – unter Verwendung von Azure OpenAI).

Eingabeaufforderungen:

Die nächste Stufe der Intelligenz besteht darin, den Eingabeaufforderungen immer mehr Kontext hinzuzufügen. Es gibt Techniken für das Prompt Engineering, die auf LLMs angewendet werden können, damit diese maßgeschneiderte Antworten geben können. Wenn Sie beispielsweise eine E-Mail an einen Benutzer erstellen, können einige Kontextinformationen über den Benutzer, vergangene Käufe und Verhaltensmuster als Anregung dienen, die E-Mail besser anzupassen. Benutzer, die mit ChatGPT vertraut sind, kennen verschiedene Aufforderungsmethoden, z. B. das Angeben von Beispielen, die vom LLM zum Erstellen von Antworten verwendet werden. Eingabeaufforderungen erweitern den internen Speicher des LLM um zusätzlichen Kontext. Beispiel ist unten.

Einbettungen:

Einbettungen bringen Eingabeaufforderungen auf die nächste Ebene, indem sie einen Wissensspeicher nach Kontext durchsuchen, diesen Kontext abrufen und an die Eingabeaufforderung anhängen. Hier besteht der erste Schritt darin, einen großen Dokumentenspeicher mit unstrukturiertem Text durchsuchbar zu machen, indem der Text indiziert und eine Vektordatenbank gefüllt wird. Hierzu wird ein Einbettungsmodell wie „ada“ von OpenAI verwendet, das einen Textblock nimmt und ihn in einen n-dimensionalen Vektor umwandelt. Diese Einbettungen erfassen den Kontext des Textes, sodass ähnliche Sätze Einbettungen haben, die im Vektorraum nahe beieinander liegen. Wenn der Benutzer eine Abfrage eingibt, wird diese Abfrage auch in eine Einbettung umgewandelt und dieser Vektor wird mit Vektoren in der Datenbank abgeglichen. Somit erhalten wir die 5 oder 10 passenden Textblöcke für die Abfrage, die den Kontext bilden. Die Abfrage und der Kontext werden an LLM übergeben, um die Frage auf menschenähnliche Weise zu beantworten.

Ketten:

Heute ist Chains die fortschrittlichste und ausgereifteste verfügbare Technologie, die in großem Umfang zum Erstellen von LLM-Anwendungen eingesetzt wird. Ketten sind deterministisch, wenn eine Folge von LLM-Aufrufen zusammengefügt wird und die Ausgabe von einem in einen oder mehrere LLMs fließt. Beispielsweise könnte ein LLM-Anruf eine SQL-Datenbank abfragen, eine Liste der Kunden-E-Mails abrufen und diese Liste an ein anderes LLM senden, das personalisierte E-Mails an Kunden generiert. Diese LLM-Ketten können in bestehende Anwendungsabläufe integriert werden, um wertvollere Ergebnisse zu erzielen. Mithilfe von Ketten könnten wir LLM-Aufrufe durch externe Eingaben wie API-Aufrufe und die Integration mit Wissensgraphen erweitern, um Kontext bereitzustellen. Darüber hinaus könnten wir heute, da mehrere LLM-Anbieter wie OpenAI, AWS Bedrock, Google PaLM, MosaicML usw. verfügbar sind, LLM-Aufrufe in Ketten kombinieren und zusammenführen. Für Kettenelemente mit begrenzter Intelligenz könnte ein niedrigeres LLM wie „gpt3.5-turbo“ verwendet werden, während für fortgeschrittenere Aufgaben „gpt4“ verwendet werden könnte. Ketten bieten eine Abstraktion für Daten, Anwendungen und LLM-Aufrufe.

Agenten:

Agenten sind ein Thema vieler Online-Debatten, insbesondere im Hinblick auf künstliche allgemeine Intelligenz (AGI). Agenten verwenden ein erweitertes LLM wie „gpt4“ oder „PaLM2“, um Aufgaben zu planen, anstatt vordefinierte Ketten zu haben. Wenn nun Benutzeranfragen vorliegen, entscheidet der Agent basierend auf der Abfrage, welche Aufgaben aufgerufen werden sollen, und erstellt dynamisch eine Kette. Wenn wir beispielsweise einen Agenten mit einem Befehl wie „Kunden benachrichtigen, wenn sich der effektive Jahreszins für Kredite aufgrund einer Aktualisierung der staatlichen Vorschriften ändert“ konfigurieren, konfigurieren wir einen Agenten. Das Agenten-Framework führt einen LLM-Aufruf durch, um über die durchzuführenden Schritte oder zu erstellenden Ketten zu entscheiden. Hier geht es darum, eine App aufzurufen, die Regulierungswebsites durchsucht und den aktuellen effektiven Jahreszinssatz extrahiert. Anschließend durchsucht ein LLM-Anruf die Datenbank und extrahiert betroffene Kunden-E-Mails. Schließlich wird eine E-Mail generiert, um alle zu benachrichtigen.

Abschließende Überlegungen

LLM ist eine sich stark weiterentwickelnde Technologie und jede Woche werden bessere Modelle und Anwendungen auf den Markt gebracht. LLM to Agents ist die Intelligenzleiter und während wir aufsteigen, erstellen wir komplexe autonome Anwendungen. Bessere Modelle bedeuten effektivere Agenten und die Anwendungen der nächsten Generation werden auf diesen basieren. Die Zeit wird zeigen, wie fortschrittlich die Anwendungen der nächsten Generation sein werden und auf welchen Mustern sie basieren werden.

Dattaraj Rao, Chef-Datenwissenschaftler bei Persistente Systeme, ist der Autor des Buches „Keras to Kubernetes: The Journey of a Machine Learning Model to Production“. Bei Persistent Systems leitet Dattaraj das AI Research Lab, das modernste Algorithmen in den Bereichen Computer Vision, Natural Language Understanding, probabilistische Programmierung, Reinforcement Learning, Explainable AI usw. erforscht und deren Anwendbarkeit in den Bereichen Gesundheitswesen, Bankwesen und Industrie demonstriert. Dattaraj verfügt über 11 Patente in den Bereichen maschinelles Lernen und Computer Vision.